ОПК 
30 ноября 2023

Проектирование надежных вычислительных систем

ИгорьАвтушенковедущий инженер-электроник АО «НТЦ ЭЛИНС»

Вопрос о надежности вычислительных машин, систем и комплексов актуален с момента появления данного класса устройств. Связано это в первую очередь с наличием в вычислительных системах значительного количества элементов, входящих в критический граф надежности системы. Соответствующая эквивалентная схема расчета надежности системы состоит из множества последовательно соединенных элементов без параллельных ветвей. В результате вероятность отсутствия отказа системы есть произведение вероятностей отсутствия отказов всех компонентов в критическом пути графа надежности (Рис. 1) и интенсивность отказа системы равна сумме интенсивности отказов этих компонентов:

Рис. 1. Схема критического пути расчета надежности и граф состояний системы без восстановления. Рис. 1. Схема критического пути расчета надежности и граф состояний системы без восстановления.
Рис. 1. Схема критического пути расчета надежности и граф состояний системы без восстановления.

Пока вычислительные системы использовались относительно редко и применялись исключительно для проведения расчетов, не требующих реального времени исполнения, можно было мириться с малым временем наработки на отказ и необходимостью в ремонтном персонале. Однако с расширением области применения вычислительных систем и появлением устройств, управляющих различными объектами в реальном времени (в том числе объектами высокой готовности и ответственности), ситуация изменилась кардинально. В этих условиях отказом системы считается некорректное внешнее состояние системы по информации либо по времени ее появления (существенная характеристика систем «жесткого» реально времени).

Рис. 2. Пример троирования аппаратуры для достижения высокой надежности блока управления РСД. Рис. 2. Пример троирования аппаратуры для достижения высокой надежности блока управления РСД.
Рис. 2. Пример троирования аппаратуры для достижения высокой надежности блока управления РСД.

В данной статье рассматривается только надежность аппаратной составляющей вычислительных систем, рассматриваемая как «свойство объекта сохранять во времени в установленных пределах значения всех параметров, характеризующих способность выполнять требуемые функции в заданных режимах и условиях применения, технического обслуживания, хранения и транспортирования», поскольку надежность программного обеспечения требует совершенно других подходов.

Основные методы решения задачи обеспечения надежности любой сложной системы – это либо повышение надежности элементов, составляющих систему, либо применение принципов проектирования, направленных на снижение влияния возможных отказов отдельных элементов на функционирование системы в целом. Мероприятия, формирующие последний подход, должны реализовывать следующие стадии разработки:

1. Предвидение дефектов.

2. Предотвращение дефектов.

3. Устранение дефектов.

4. Устойчивость к дефектам.

Возможно совмещение различных методик проектирования электронных схем, и если за рубежом, в силу ряда объективных и субъективных причин, превалировал первый подход, то инженеры в Советском Союзе ориентировались преимущественно на второй подход.

Необходимо понимать, что построение надежных систем из ненадежных компонентов приводит к определенной аппаратной избыточности, которая влечет за собой увеличение массогабаритных показателей изделия, его энергопотребления и стоимости. Среди устоявшихся решений можно выделить «троирование» аппаратуры (Рис. 2) с посекционными мажоритарными элементами либо выходными устройствами, выполняющими функции «голосования». Используется также дублирование аппаратных функций с определением отказа путем сравнения с эталоном результатов контрольной задачи и переключением основного потока управления на холодный или горячий резерв (функционирующий в нагруженном или облегченном режиме). Активно применялись аппаратные схемы обнаружения и коррекции ошибок, в первую очередь в области ПЗУ (проверка четности) и ОЗУ (коды Хэм­минга) (Рис. 3).

Рис. 3. Пример реализации кода Хэмминга 16/6 для достижения высокой надежности оперативной памяти на плате ДВК. Рис. 3. Пример реализации кода Хэмминга 16/6 для достижения высокой надежности оперативной памяти на плате ДВК.
Рис. 3. Пример реализации кода Хэмминга 16/6 для достижения высокой надежности оперативной памяти на плате ДВК.

Помимо архитектурного подхода, активно применялись и решения по снижению интенсивности отказов отдельных компонентов с недостаточной надежностью путем обеспечения «щадящих» режимов эксплуатации во всем диапазоне режимов эксплуатации. Обеспечивалась также избыточность отдельных элементов схемных решений (например, устанавливались электролитические конденсаторы избыточной емкости), делающих вычислительные системы менее чувствительными к отказу отдельного элемента или деградации его параметров в процессе эксплуатации.

В Советском Союзе инженерная школа проектирования надежных систем из ненадежных компонентов вполне успешно решала поставленные перед ней задачи, как минимум, в области специальных применений, где требования стоимости вычислительных систем не были определяющими. Однако показатели предельной надежности лучших зарубежных образцов (например, аппаратуры «Вояджеров», функционирующей десятилетиями без обслуживания) остались недосягаемыми. В области производства изделий широкого потребления положение дел с надежностью изделий оставалось неудовлетворительным и не менялось к лучшему до завершения истории СССР.

На сегодня ситуация изменилась кардинально. Область применения электронных компонентов, организованных в вычислительные системы разной степени сложности, беспрецедентно расширилась. Сегодня уже невозможно представить себе системы вооружения, где бы отсутствовала вычислительная система (даже на автомат Калашникова монтируют электронные приспособления, существенно расширяющие его возможности). А с учетом особенностей применения вычислительных систем в области управления вооружением сбои в работе его электронной составляющей категорически недопустимы, поскольку могут вызвать негативные последствия.

Очевидно, что использование аппаратной избыточности в целях обеспечения надежности вычислительных систем в массово выпускаемой продукции (даже специального применения) весьма ограничено. Поэтому переход на высоконадежные компоненты, в том числе импортного производства, не имеет реальной альтернативы. Однако даже применение компонентов с высокой надежностью не гарантирует успеха при ненадлежащей инженерной культуре.

В процессе разработки и производства аппаратуры, изготавливаемой АО «НТЦ ЭЛИНС», проблеме обеспечения надежности, с учетом особенностей применения изделий и последствий возможных отказов, уделяется особое внимание. На этапе проектирования применяются проверенные временем принципы создания рабочих режимов компонентов, предусматривается использование электронных компонентов и сборок в полном соответствии с требованиями технической документации, встраиваются элементы контроля исправности изделий (преимущественно программным способом), активно внедряются принципы DFM (разработка для производства). Не забыт и опыт инженерной школы СССР, прежде всего методы дублирования аппаратуры, как в прямой реализации – путем введения горячего ненагруженного резерва источников питания и прочих аппаратных узлов, так и косвенным методом за счет функционального дублирования (Рис. 4).

Рис. 4. Пример использования аппаратного дублирования в устройстве «Сервер». Рис. 4. Пример использования аппаратного дублирования в устройстве «Сервер».
Рис. 4. Пример использования аппаратного дублирования в устройстве «Сервер».

Так, во многих изделиях ввод оператором требуемой для решения задач информации может осуществляться несколькими способами: при помощи указателя (трекбол), сенсорного экрана, устройств типа джойстиков или клавиатуры (Рис. 5). Во многих изделиях предусмотрена и возможность оперативного изменения состава программного обеспечения отдельных блоков, входящих в состав вычислительной системы, в целях перераспределения функций при отказе блока.

Рис. 5. Пример дублирования функционала ввода информации в изделии «ПЭВМ». Рис. 5. Пример дублирования функционала ввода информации в изделии «ПЭВМ».
Рис. 5. Пример дублирования функционала ввода информации в изделии «ПЭВМ».

На этапе изготовления строго выдерживаются все технологические требования к процессу производства, что служит залогом высокой надежности конечных изделий.

Изготовленная продукция проходит многоступенчатый сплошной (100%) контроль в жестких условиях при участии представителя заказчика (Рис. 6). Все перечисленные меры способствуют получению изделий, в том числе вычислительных систем высокой степени надежности, которая подтверждается показателями при эксплуатации. Множество изделий класса вычислительных систем, по результатам эксплуатации в реальных условиях, имеют время наработки на отказ, кратно превышающее расчетные показатели. Последнее, безусловно, справедливо исключительно в отношении изделий, эксплуатируемых в соответствии с требованиями технических условий и эксплуатационной документации.

Рис. 6. Пример оборудования рабочего места для осуществления пооперационного контроля.  Рис. 6. Пример оборудования рабочего места для осуществления пооперационного контроля.
Рис. 6. Пример оборудования рабочего места для осуществления пооперационного контроля.

В АО «НТЦ ЭЛИНС» производится широкая номенклатура вычислительных систем. Это и стационарные вычислительные устройства, и рабочие места операторов с экранами 22, 19, 17 и 15 дюймов, и переносные системы с автономным питанием, снабженные средствами ввода информации и экранами от 7 до 15 дюймов с конструктивным исполнением в виде планшетов и ноутбуков (Рис. 7, 8).

Рис. 7. Пример автономного рабочего места в исполнении «ноутбук». Рис. 7. Пример автономного рабочего места в исполнении «ноутбук».
Рис. 7. Пример автономного рабочего места в исполнении «ноутбук».

Рис. 8. Пример автономного рабочего место в исполнении «планшет». Рис. 8. Пример автономного рабочего место в исполнении «планшет».
Рис. 8. Пример автономного рабочего место в исполнении «планшет».

Все представленные в линейке вычислительные системы (Рис. 9), производятся по документации с литерой О1, имеют высокую надежность, подтвержденную опытом эксплуатации.

Резюмируя, следует указать, что разрабатывается и производится все больше сложных вычислительных систем, которые должны обеспечить высокий уровень доверия. В больших вычислительных системах, особенно реального времени, проблема обеспечения приемлемого уровня надежности усугубляется наличием значительного параллелизма как в обработке данных, так и во внешних процессах, что приводит к огромному количеству разнообразных совпадений (проблема взаимодействия). Очевидно, что в различных обстоятельствах разработчики акцентируют внимание и концентрируют усилия на различных свойствах системы, например:

1) на достижении отклика в реальном времени;

2) на вероятности получения требуемого результата;

3) на возможности избежать отказы, которые могут быть катастрофичными для объекта управления;

4) на степень, до которой могут быть предотвращено распространение дефекта.

Рис. 9. Примеры конструктивного оформления изделий вычислительных систем производства «НТЦ ЭЛИНС». Рис. 9. Примеры конструктивного оформления изделий вычислительных систем производства «НТЦ ЭЛИНС».
Рис. 9. Примеры конструктивного оформления изделий вычислительных систем производства «НТЦ ЭЛИНС».

Необходимо отметить, что в последнее десятилетие наблюдается тенденция к существенному ухудшению качества электронной компонентной базы, в первую очередь импортного производства. Имеет место изменение параметров ЭКБ и узлов (даже у производителей с мировым именем), приводящее к частичной или полной неработоспособности изделий, особенно в жестких условиях эксплуатации. В «НТЦ ЭЛИНС» подобные случаи обнаруживаются на этапе проверок составных частей изделий (в том числе и на этапе входного контроля комплектующих), ведется база данных по инцидентам, принимаются меры по исключению их повторения путем постоянного подбора производителей и поставщиков ЭКБ, оперативно осуществляются соответствующие изменения в конструкторской документации.

В современных условиях крайне актуальна централизация поставок ЭКБ (как импортных, так и оте­чественных) с гарантированным качеством, что снизило бы затраты отдельных предприятий на организацию контроля при создании изделий, в том числе вычислительных систем, с высокими требованиями к надежности. Очевидно, что институт «вторых поставщиков» с данной задачей не справляется. Потребуются определенное бюджетное финансирование такого органа и обеспечение изготовления конечной продукции в режиме «давальческого сырья». Предприятия промышленности будут заинтересованы во взаимодействии с подобной организацией, поскольку экономический эффект от совместной деятельности очевиден и дело только за организационными мерами со стороны регулирующих органов.

В заключение необходимо отметить, что:

– строгое следование лучшим практикам разработки надежных систем;

– тщательный контроль компонентов, используемых для изготовления составных частей вычислительных систем;

– постоянный контроль процесса производства;

– проведение испытаний готовых изделий в жестких условиях;

– непрерывный сбор информации об эксплуатации систем

позволяют АО «НТЦ «ЭЛИНС» успешно справляться с задачей поставки высоконадежных вычислительных систем для применения в специальных изделиях, несмотря на все трудности, имеющиеся на текущий момент.