Вопрос о надежности вычислительных машин, систем и комплексов актуален с момента появления данного класса устройств. Связано это в первую очередь с наличием в вычислительных системах значительного количества элементов, входящих в критический граф надежности системы. Соответствующая эквивалентная схема расчета надежности системы состоит из множества последовательно соединенных элементов без параллельных ветвей. В результате вероятность отсутствия отказа системы есть произведение вероятностей отсутствия отказов всех компонентов в критическом пути графа надежности (Рис. 1) и интенсивность отказа системы равна сумме интенсивности отказов этих компонентов:
Пока вычислительные системы использовались относительно редко и применялись исключительно для проведения расчетов, не требующих реального времени исполнения, можно было мириться с малым временем наработки на отказ и необходимостью в ремонтном персонале. Однако с расширением области применения вычислительных систем и появлением устройств, управляющих различными объектами в реальном времени (в том числе объектами высокой готовности и ответственности), ситуация изменилась кардинально. В этих условиях отказом системы считается некорректное внешнее состояние системы по информации либо по времени ее появления (существенная характеристика систем «жесткого» реально времени).
В данной статье рассматривается только надежность аппаратной составляющей вычислительных систем, рассматриваемая как «свойство объекта сохранять во времени в установленных пределах значения всех параметров, характеризующих способность выполнять требуемые функции в заданных режимах и условиях применения, технического обслуживания, хранения и транспортирования», поскольку надежность программного обеспечения требует совершенно других подходов.
Основные методы решения задачи обеспечения надежности любой сложной системы – это либо повышение надежности элементов, составляющих систему, либо применение принципов проектирования, направленных на снижение влияния возможных отказов отдельных элементов на функционирование системы в целом. Мероприятия, формирующие последний подход, должны реализовывать следующие стадии разработки:
1. Предвидение дефектов.
2. Предотвращение дефектов.
3. Устранение дефектов.
4. Устойчивость к дефектам.
Возможно совмещение различных методик проектирования электронных схем, и если за рубежом, в силу ряда объективных и субъективных причин, превалировал первый подход, то инженеры в Советском Союзе ориентировались преимущественно на второй подход.
Необходимо понимать, что построение надежных систем из ненадежных компонентов приводит к определенной аппаратной избыточности, которая влечет за собой увеличение массогабаритных показателей изделия, его энергопотребления и стоимости. Среди устоявшихся решений можно выделить «троирование» аппаратуры (Рис. 2) с посекционными мажоритарными элементами либо выходными устройствами, выполняющими функции «голосования». Используется также дублирование аппаратных функций с определением отказа путем сравнения с эталоном результатов контрольной задачи и переключением основного потока управления на холодный или горячий резерв (функционирующий в нагруженном или облегченном режиме). Активно применялись аппаратные схемы обнаружения и коррекции ошибок, в первую очередь в области ПЗУ (проверка четности) и ОЗУ (коды Хэмминга) (Рис. 3).
Помимо архитектурного подхода, активно применялись и решения по снижению интенсивности отказов отдельных компонентов с недостаточной надежностью путем обеспечения «щадящих» режимов эксплуатации во всем диапазоне режимов эксплуатации. Обеспечивалась также избыточность отдельных элементов схемных решений (например, устанавливались электролитические конденсаторы избыточной емкости), делающих вычислительные системы менее чувствительными к отказу отдельного элемента или деградации его параметров в процессе эксплуатации.
В Советском Союзе инженерная школа проектирования надежных систем из ненадежных компонентов вполне успешно решала поставленные перед ней задачи, как минимум, в области специальных применений, где требования стоимости вычислительных систем не были определяющими. Однако показатели предельной надежности лучших зарубежных образцов (например, аппаратуры «Вояджеров», функционирующей десятилетиями без обслуживания) остались недосягаемыми. В области производства изделий широкого потребления положение дел с надежностью изделий оставалось неудовлетворительным и не менялось к лучшему до завершения истории СССР.
На сегодня ситуация изменилась кардинально. Область применения электронных компонентов, организованных в вычислительные системы разной степени сложности, беспрецедентно расширилась. Сегодня уже невозможно представить себе системы вооружения, где бы отсутствовала вычислительная система (даже на автомат Калашникова монтируют электронные приспособления, существенно расширяющие его возможности). А с учетом особенностей применения вычислительных систем в области управления вооружением сбои в работе его электронной составляющей категорически недопустимы, поскольку могут вызвать негативные последствия.
Очевидно, что использование аппаратной избыточности в целях обеспечения надежности вычислительных систем в массово выпускаемой продукции (даже специального применения) весьма ограничено. Поэтому переход на высоконадежные компоненты, в том числе импортного производства, не имеет реальной альтернативы. Однако даже применение компонентов с высокой надежностью не гарантирует успеха при ненадлежащей инженерной культуре.
В процессе разработки и производства аппаратуры, изготавливаемой АО «НТЦ ЭЛИНС», проблеме обеспечения надежности, с учетом особенностей применения изделий и последствий возможных отказов, уделяется особое внимание. На этапе проектирования применяются проверенные временем принципы создания рабочих режимов компонентов, предусматривается использование электронных компонентов и сборок в полном соответствии с требованиями технической документации, встраиваются элементы контроля исправности изделий (преимущественно программным способом), активно внедряются принципы DFM (разработка для производства). Не забыт и опыт инженерной школы СССР, прежде всего методы дублирования аппаратуры, как в прямой реализации – путем введения горячего ненагруженного резерва источников питания и прочих аппаратных узлов, так и косвенным методом за счет функционального дублирования (Рис. 4).
Так, во многих изделиях ввод оператором требуемой для решения задач информации может осуществляться несколькими способами: при помощи указателя (трекбол), сенсорного экрана, устройств типа джойстиков или клавиатуры (Рис. 5). Во многих изделиях предусмотрена и возможность оперативного изменения состава программного обеспечения отдельных блоков, входящих в состав вычислительной системы, в целях перераспределения функций при отказе блока.
На этапе изготовления строго выдерживаются все технологические требования к процессу производства, что служит залогом высокой надежности конечных изделий.
Изготовленная продукция проходит многоступенчатый сплошной (100%) контроль в жестких условиях при участии представителя заказчика (Рис. 6). Все перечисленные меры способствуют получению изделий, в том числе вычислительных систем высокой степени надежности, которая подтверждается показателями при эксплуатации. Множество изделий класса вычислительных систем, по результатам эксплуатации в реальных условиях, имеют время наработки на отказ, кратно превышающее расчетные показатели. Последнее, безусловно, справедливо исключительно в отношении изделий, эксплуатируемых в соответствии с требованиями технических условий и эксплуатационной документации.
В АО «НТЦ ЭЛИНС» производится широкая номенклатура вычислительных систем. Это и стационарные вычислительные устройства, и рабочие места операторов с экранами 22, 19, 17 и 15 дюймов, и переносные системы с автономным питанием, снабженные средствами ввода информации и экранами от 7 до 15 дюймов с конструктивным исполнением в виде планшетов и ноутбуков (Рис. 7, 8).
Все представленные в линейке вычислительные системы (Рис. 9), производятся по документации с литерой О1, имеют высокую надежность, подтвержденную опытом эксплуатации.
Резюмируя, следует указать, что разрабатывается и производится все больше сложных вычислительных систем, которые должны обеспечить высокий уровень доверия. В больших вычислительных системах, особенно реального времени, проблема обеспечения приемлемого уровня надежности усугубляется наличием значительного параллелизма как в обработке данных, так и во внешних процессах, что приводит к огромному количеству разнообразных совпадений (проблема взаимодействия). Очевидно, что в различных обстоятельствах разработчики акцентируют внимание и концентрируют усилия на различных свойствах системы, например:
1) на достижении отклика в реальном времени;
2) на вероятности получения требуемого результата;
3) на возможности избежать отказы, которые могут быть катастрофичными для объекта управления;
4) на степень, до которой могут быть предотвращено распространение дефекта.
Необходимо отметить, что в последнее десятилетие наблюдается тенденция к существенному ухудшению качества электронной компонентной базы, в первую очередь импортного производства. Имеет место изменение параметров ЭКБ и узлов (даже у производителей с мировым именем), приводящее к частичной или полной неработоспособности изделий, особенно в жестких условиях эксплуатации. В «НТЦ ЭЛИНС» подобные случаи обнаруживаются на этапе проверок составных частей изделий (в том числе и на этапе входного контроля комплектующих), ведется база данных по инцидентам, принимаются меры по исключению их повторения путем постоянного подбора производителей и поставщиков ЭКБ, оперативно осуществляются соответствующие изменения в конструкторской документации.
В современных условиях крайне актуальна централизация поставок ЭКБ (как импортных, так и отечественных) с гарантированным качеством, что снизило бы затраты отдельных предприятий на организацию контроля при создании изделий, в том числе вычислительных систем, с высокими требованиями к надежности. Очевидно, что институт «вторых поставщиков» с данной задачей не справляется. Потребуются определенное бюджетное финансирование такого органа и обеспечение изготовления конечной продукции в режиме «давальческого сырья». Предприятия промышленности будут заинтересованы во взаимодействии с подобной организацией, поскольку экономический эффект от совместной деятельности очевиден и дело только за организационными мерами со стороны регулирующих органов.
В заключение необходимо отметить, что:
– строгое следование лучшим практикам разработки надежных систем;
– тщательный контроль компонентов, используемых для изготовления составных частей вычислительных систем;
– постоянный контроль процесса производства;
– проведение испытаний готовых изделий в жестких условиях;
– непрерывный сбор информации об эксплуатации систем
позволяют АО «НТЦ «ЭЛИНС» успешно справляться с задачей поставки высоконадежных вычислительных систем для применения в специальных изделиях, несмотря на все трудности, имеющиеся на текущий момент.