Вы находитесь на странице: 1из 63

Министерство образования РФ

Владимирский государственный университет


Муромский институт (филиал)

Яковлев А.В.

НАДЕЖНОСТЬ
ИНФОРМАЦИОННЫХ СИСТЕМ
Лекционный материал

Муром 2004
2

Содержание

1 ОБЩИЕ ПОЛОЖЕНИЯ ТЕОРИИ НАДЕЖНОСТИ ....................................... 3


1.1 Основные понятия и определения..................................................................... 3
1.2 Классификация отказов ...................................................................................... 5
1.3 Характеристики надежности при внезапных и постепенных отказах........... 7
1.3.1 Показатели безотказности....................................................................................................... 8
1.3.2 Показатели ремонтопригодности. ........................................................................................ 11
1.3.3 Показатели долговечности. ................................................................................................... 12
1.3.4 Показатели сохраняемости.................................................................................................... 12
1.4 Комплексные показатели надежности ............................................................ 13
1.5 Показатели надежности сложных объектов ................................................... 15
1.5.1 Последовательное соединение элементов. .......................................................................... 15
1.5.2 Параллельное соединение элементов. ................................................................................. 16
2 ОСНОВЫ РАСЧЕТОВ НАДЕЖНОСТИ ........................................................ 18
2.1 Области использования расчетов надежности............................................... 18
2.2 Характеристики случайных величин и случайных событий........................ 19
2.2.1 Расчет надежности с использованием элементов математической логики...................... 26
2.2.2 Расчет надежности восстанавливаемых систем.................................................................. 28
3 ОПТИМАЛЬНОЕ РЕЗЕРВИРОВАНИЕ В ОТКАЗОУСТОЙЧИВЫХ ИС . 31
3.1 Исходные положения........................................................................................ 31
3.2 Оптимальное распределение резервов методом неопределенных
множителей Лагранжа ...................................................................................... 32
3.3 Оптимальное резервирование методом динамического
программирования ............................................................................................ 37
4 КОНТРОЛЬ И ДИАГНОСТИКА ИС .............................................................. 40
4.1 Общие положения ............................................................................................. 40
4.2 Методы аппаратурного контроля .................................................................... 44
4.3 Программно-логические методы контроля .................................................... 48
4.4 Тестовый контроль............................................................................................ 51
5 ПРИНЦИПЫ ПОСТРОЕНИЯ ОТКАЗОУСТОЙЧИВЫХ ИC...................... 52
5.1 Основные задачи создания отказоустойчивых систем ................................. 52
5.2 Способы и средства устранения последствий ошибок и отказов в ИС....... 55
5.3 Способы восстановления отказоустойчивой ИС ........................................... 56
6 ИСПЫТАНИЯ НА НАДЕЖНОСТЬ ............................................................... 58
6.1 Значение и виды испытаний на надежность .................................................. 58
6.2 Задачи, возникающие при испытаниях на надежность................................. 59
6.3 Выводы об испытаниях на надежность информационных систем ............. 61
3

1 ОБЩИЕ ПОЛОЖЕНИЯ ТЕОРИИ НАДЕЖНОСТИ


1.1 ОСНОВНЫЕ ПОНЯТИЯ И ОПРЕДЕЛЕНИЯ
Надежность - свойство объекта сохранять во времени в установленных
пределах значения всех параметров, характеризующих способность выполнять
требуемые функции в заданных режимах и условиях применения, технического
обслуживания, ремонтов, хранения и транспортирования (ГОСТ 27.002-83).
Надежность является одной из важнейших характеристик качества объекта -
совокупности свойств, определяющих пригодность его использования по назна-
чению. Но в отличие от точечных характеристик качества (быстродействие, про-
изводительность и т.д., которые измеряются для некоторого момента времени),
надежность характеризует зависимость точечных характеристик качества либо от
времени использования, либо от наработки объекта, т.е. надежность - характери-
стика временная.
Элемент – один или несколько однотипных устройств, предметов, испытуе-
мых образцов, имеющих количественные характеристики надежности, учитывае-
мые при расчете надежности всего соединения.
Ячейка – отдельная конструкция, не имеющая самостоятельного функцио-
нального назначения.
Узел – несколько деталей, ячеек, объединенных для выполнения определен-
ных функций, но не имеющих самостоятельного эксплуатационного назначения
(регистр команд, регистр флагов).
Устройство – соединение деталей, узлов, имеющее самостоятельное экс-
плуатационное назначение (блок питания).
Прибор – группа блоков, имеющая конструктивно самостоятельное назначе-
ние.
Установка – группа приборов.
Система – устройство, состоящее из нескольких установок. Надежность его
имеет самостоятельное значение. Различают системы восстанавливаемые (после
отказа их можно ремонтировать) и невосстанавливаемые. Системы могут быть
однократно и многократно использованы.
Надежность - это сложное свойство, включающее в себя более простые свой-
ства объекта, которые называются сторонами надежности.
Сторонами надежности являются:
1. Безотказность - свойство объекта непрерывно сохранять работоспособ-
ность в течение некоторого времени или некоторой наработки. Наработка - время
работы объекта до первого отказа.
2. Ремонтопригодность - свойство объекта, заключающееся в приспособ-
ленности его к предупреждению и обнаружению отказов и восстановлению рабо-
тоспособности объекта либо путем проведения ремонта, либо путем замены отка-
завших элементов.
4

3. Долговечность - свойство объекта сохранять работоспособность до насту-


пления предельного состояния при установленном режиме технического обслу-
живания и ремонта.
4. Сохраняемость - свойство объекта сохранять работоспособность в течение
и после его хранения и (или) транспортирования.
5. Работоспособность - такое состояние объекта, при котором он способен
выполнять заданные функции, удовлетворяя требованиям нормативно-
технической документации. Работоспособность - это характеристика состояния
объекта в некоторый момент времени.
Для оценки надежности ИС находят применение дополнительные стороны
надежности:
1. Живучесть - свойство объекта или системы сохранять работоспособность
(полностью или частично) в условиях неблагоприятных воздействий, не преду-
смотренных нормативными условиями эксплуатации.
2. Сбой - кратковременное нарушение работоспособности системы, после ко-
торого работоспособность восстанавливается оператором без проведения ремонта
или самовосстанавливается.
3. Ошибка - проявление сбоя или отказа компонента ИС.
4. Достоверность информации - свойство системы выдавать достоверную
информацию при возникновении в ней сбоев.
5. Отказоустойчивость - свойство системы продолжать выполнение задан-
ных функций после возникновения одного или нескольких сбоев или отказов от-
дельных элементов.
6. Конфигурация - совокупность и способ взаимодействия программных и
аппаратных средств системы, направленных на выполнение рабочего задания.
7. Реконфигурация - изменение состава и способа взаимодействия программ-
ных и аппаратных средств системы с целью исключения отказавших элементов.
8. Ремонт - восстановление работоспособности системы с помощью специа-
листов.
9. Избыточность - дополнительные программные и аппаратные средства,
возможности алгоритма для выполнения дополнительных функций, предназна-
ченных для повышения надежности ИС. Алгоритмическая избыточность - спо-
собность обеспечить правильный результат, несмотря на возможные отдельные
ошибки в ходе вычислений. Информационная избыточность - некоторое повто-
рение информации в той или иной форме, позволяющее восстанавливать исход-
ные данные в случае каких-либо нарушений в работе системы. Характерным спо-
собом введения избыточности является резервирование - использование дополни-
тельных средств и возможностей с целью сохранения работоспособности системы
при отказе одного или нескольких ее элементов. Различают статическую и дина-
мическую избыточность. Статическая избыточность реализуется автоматически
сразу после возникновения отказа: система построена так, что после отказа ее не-
нарушенная часть позволяет продолжить выполнение задания. Динамическая из-
5

быточность реализуется только после некоторой перестройки работы системы,


получившей сигнал об отказе от устройства контроля.
10. Отказ - событие, заключающееся в том, что система полностью или час-
тично теряет свойство работоспособности.
В непосредственной связи с понятием «надежность» находится понятие «эф-
фективность». Эффективностью системы называется свойство выдавать некото-
рый полезный результат (эффект) при использовании ее по назначению.
Надежность и эффективность – взаимосвязанные понятия. Чем выше надеж-
ность, тем выше и эффективность системы, но до определенного уровня, так как
дальнейшее повышение надежности сопряжено с существенными экономически-
ми затратами.
Различают эффективность номинальную, реальную, техническую, экономи-
ческую.
Эффективность номинальная - это эффективность системы при безотказном
ее состоянии.
Эффективность реальная - это эффективность реальной системы, т.е. не об-
ладающей идеальной надежностью.
Эффективность техническая - это технический эффект, полученный при
использовании объекта (количество переданной информации, снижение затрат
времени и т.п.).
Эффективность экономическая - степень выгодности экономических затрат
при использовании системы.
Слияние показателей надежности и показателей эффективности в комплекс-
ный показатель позволяет получить - коэффициент сохранения эффективности:
Ýð
K ýôô = ,
Ý íîì
где Ý ð - реальное значение эффективности; Ý íîì - номинальное значение эффек-
тивности. В качестве показателей Ý ð и Ý íîì могут выступать, например, номи-
нальная и реальная пропускные способности системы массового обслуживания.
Рассмотренные определения позволяют сделать вывод о том, что надежность
можно характеризовать как способность системы работать безотказно в заданных
условиях эксплуатации. В наиболее общих случаях надежность ИС и вычисли-
тельных машин определяется как сочетание безотказности, ремонтопригодности и
долговечности.
1.2 КЛАССИФИКАЦИЯ ОТКАЗОВ
Отказы объектов могут классифицироваться по многим признакам, напри-
мер, по условиям возникновения, внешним проявлениям, способам обнаружения.
В табл. 1.1 приведена классификация отказов по основным признакам. При анали-
зе надежности конкретного объекта классификация его отказов позволяет выявить
причины отказов, а значит, найти пути повышения надежности.
6

Следует отметить, что в общей массе отказов ЭВМ преобладают сбои, т.е.
самоустраняющиеся отказы. Хотя сбои и рассматриваются как самоустраняющие-
ся отказы, для устранения их влияния на вычислительный процесс, как правило,
требуется принятие специальных мер (введение дополнительных программ уст-
ранения последствий сбоев, дополнительной аппаратуры, вмешательства опера-
тора). Это обусловлено тем, что во время сбоев может быть искажена часть дан-
ных, хранимых в памяти ЭВМ.
Более подробно остановимся на внезапных и постепенных отказах.
Внезапному отказу может не предшествовать постепенное накопление по-
вреждений, он возникает внезапно. Причинами внезапных отказов электронной
аппаратуры обычно являются скрытые дефекты их производства. В процессе экс-
плуатации могут создаться условия (пиковые нагрузки, тряска, вибрация, темпе-
ратурный скачок, помехи), при которых скрытый дефект приводит к отказу эле-
мента.
Таблица 1.1
Классификационный при- Значение классификационного при- Вид отказа
знак знака

1. Характер изменения Скачкообразное изменение одного Внезапный отказ


основных параметров или нескольких параметров
объекта до момента воз-
никновения отказа Постепенное изменение одного или Постепенный отказ
нескольких основных параметров

2. Взаимосвязь отказов Отказ элемента объекта не обу- Независимый отказ


словлен повреждениями или отка- элемента
зами других элементов объекта
Отказ элемента объекта обуслов- Зависимый отказ
лен повреждениями или отказами элемента
других элементов объекта
3. Происхождение отка- Нарушение установленных правил и Конструкционный от-
зов (или) норм конструирования, не- каз
совершенство принятых методов
конструирования
Нарушение установленного процес- Производственный
са изготовления или ремонта объ- отказ
екта, несовершенство технологии
Нарушение установленных правил и Эксплуатационный
(или) условий эксплуатации объ- отказ
екта
4. Устойчивость нерабо- Неработоспособность сохраняется Устойчивый отказ
тоспособного состояния устойчиво
(характер отказа) Неработоспособность сохраняется Самоустраняющийся
кратковременно, после чего рабо- отказ (сбой)
тоспособность самовосстанавлива-
ется или восстанавливается опе-
ратором без проведения ремонта
Неработоспособность одного и то- Перемежающийся от-
го же характера возникает и са- каз
моустраняется многократно
7

Постепенный отказ возникает в результате постепенного накопления по-


вреждений, главным образом, вследствие износа и старения материалов.
В следствии разной природ происхождения, внезапные и постепенные отказы
подчиняются различным закономерностям, поэтому должны быть различны и
способы борьбы с ними. Для уменьшения числа внезапных отказов используется
тренировка и приработка систем в условиях, близких к условиям эксплуатации, с
целью выявления скрытых дефектов производства, а также введение защиты от
помех, перегрузок, вибрации и т.п. Уменьшению числа постепенных отказов спо-
собствует своевременная замена блоков, выработавших свой технический ресурс.
Отказы в ИС целесообразно подразделять на аппаратные и программные.
Аппаратным отказом принято считать событие, при котором изделие утра-
чивает работоспособность и для его восстановления требуется проведение ремон-
та аппаратуры или замена отказавшего изделия на работоспособное.
Программным отказом считается событие, при котором объект утрачивает
работоспособность по причине несовершенства программы (несовершенство ал-
горитма решения задачи, отсутствие программной защиты от сбоев, отсутствие
программного контроля за состоянием изделия и т.д.). Программный отказ устра-
няется путем исправления программы.
1.3 ХАРАКТЕРИСТИКИ НАДЕЖНОСТИ ПРИ ВНЕЗАПНЫХ И ПО-
СТЕПЕННЫХ ОТКАЗАХ
Показатели надежности – это количественные характеристики одного или
нескольких свойств, определяющих надежность системы. В основе большинства
показателей надежности лежат оценки наработки, т.е. продолжительности или
объема работы, выполненной объектом. По отношению к ЭВМ и ее элементам
обычно в качестве наработки рассматривают только продолжительность работы.
Когда система работает с перерывами, учитывается суммарная наработка. Если
объект эксплуатируется в различных режимах, влияющих на показатели надежно-
сти, то наработки могут суммироваться для каждого режима отдельно.
Показатель надежности, относящийся к одному из свойств, определяющих
надежность объекта, называется единичным. Комплексный показатель надежности
относится к нескольким свойствам, определяющим надежность системы. И еди-
ничные и комплексные показатели являются вероятностными характеристиками,
т.е. случайными величинами.
При рассмотрении показателей надежности следует различать:
• наименование показателя;
• формулировку показателя, содержащую указание о способах эксперимен-
тального или расчетного определения его численного значения;
• численные значения показателя.
8

1.3.1 ПОКАЗАТЕЛИ БЕЗОТКАЗНОСТИ


Вероятность безотказной работы P(t) – вероятность того, что в пределах
заданной наработки отказ не возникает (наработка – это продолжительность или
объем работы):
P( t ) = P( T ≥ t ) , (1.1)
где Т – случайное время работы объекта до отказа; t – заданная наработка. Этот
показатель обладает следующими свойствами:
• P( t ) = 1 , т.е. до начала работы ( t = 0 ) система являлась безусловно рабо-
тоспособной;
• P( t ) – невозрастающая функция времени;
• lim P( t ) = 0 , т.е. объект не может сохранять свою работоспособность не-
t →∞
ограниченно долго.
Вероятность отказа Q( t ) – вероятность того, что в пределах заданной на-
работки отказ объекта возникает:
Q( t ) = 1 − P( t ) , (1.2)
Она характеризует вероятность того, что случайное время T работы объекта
до отказа меньше заданного времени t ( t ≥ T ). Под T понимается непрерывная
случайная величина, для которой существует плотность распределения наработ-
ки до отказа:
d
f ( t ) = F( t ), (1.3)
dt
где F(t) - функция распределения времени до отказа, совпадающая с функцией
Q(t):
t
Q( t ) = F ( t ) = ∫ f ( t )dt , (1.4)
0

Средняя наработка до отказа t – математическое ожидание наработки объ-


екта до первого отказа (среднее время до отказа):
∞ ∞ ∞

t = ∫ t ⋅ f ( t )dt = − t ⋅ P( t ) 0 + ∫ P( t )dt = ∫ P( t )dt , (1.5)
0 0 0

где t – время от начала работы невосстанавливаемого объекта до его отказа.


Наработка на отказ – отношение наработки восстанавливаемого объекта к
математическому ожиданию количества его отказов в течение этой наработки.
Для ЭВМ этот показатель называется средним временем между отказами. Если
после каждого отказа объект восстанавливается до первоначального состояния, то
среднее время между отказами равно среднему времени до отказа.
Интенсивность отказов – условная плотность вероятности возникновения
отказа невосстанавливаемого объекта, определяемая для рассматриваемого мо-
мента времени при условии, что до этого момента отказ не возник:
9

d d dP( t )
F( t ) ( 1 − P( t )) −
f ( t ) dt (1.6)
λ( t ) = = = dt = dt ,
P( t ) P( t ) P( t ) P( t )
Интенсивность отказов показывает, какая часть элементов выходит из строя
в единицу времени по отношению к среднему числу исправно работающих эле-
ментов.
λ
Внезапные отказы

Постепенные отказы

t
0 t1 t2

Рис. 1.1. Зависимость интенсивности отказов от


времени.

Как видно из рис. 1.1, работа элементов и систем характеризуется тремя эта-
пами. Начальный этап (период доводки – [0, t1]) отличается небольшим количест-
вом отказов. Здесь выходят из строя элементы с малым запасом прочности. Вто-
рой этап (t1, t2) – период нормальной эксплуатации – характеризуется понижен-
ным уровнем и примерным постоянством интенсивности отказов. Здесь отказы в
основном носят внезапный характер. Продолжительность этого периода зависит
от среднего срока службы элементов и условий эксплуатации. Третий этап (от t2 и
далее) – период износа и старения. Он характерен значительным ростом числа от-
казов; с наступлением этого периода дальнейшая эксплуатация системы стано-
вится нецелесообразной.
Решая соотношение (1.6) как линейное однородное дифференциальное урав-
нение первого порядка относительно функции безотказности, получим связь меж-
ду λ ( t ) и P( t ) :
t t
dP( t ) dP( t )
λ( t )dt = −
P( t )
; ∫ λ( t )dt = − ∫ P( t )
. Первообразная подынтегральной функ-
0 0
t
ции равна ln P( t ) , тогда ∫ λ( t )dt = ln P( 0 ) − ln P( t ) .
0
t
При начальном условии P( 0 ) = 1 получим ln P( t ) = − ∫ λ( t )dt , откуда:
0
t
−∫ λ( t )dt (1.7)
P( t ) = e 0 ,
10

В частном случае, когда λ ( t ) = const , выражение (1.7) представляет собой


экспоненциальный закон надежности. По этому закону вероятность безотказной
работы элементов, обладающих интенсивностью отказов λ , убывает со временем
по экспоненциальной кривой (рис. 1.2).

P(t)

t
Рис.1.2. Функция надежности.

Это справедливо для периода нормальной эксплуатации системы, когда эф-


фект износа неощутим. Такую кривую называют функцией надежности. Она
имеет большое значение для практического использования, когда необходимо
знать, с какой вероятностью АСУ или ИС способна выполнить задание, требую-
щее определенной продолжительности безотказной работы.
Подставив значение P(t) в (1.5), получим:
t
∞ −∫ λ( t )dt
t = ∫e 0
dt.
0

Если λ ( t ) равна постоянной величине, то



1
t = ∫ e−λt dt = (1.8)
0
λ
1
где λ = – среднее число отказов в единицу времени. Тогда (1.7) принимает вид:
t
− λt
P( t ) = e (1.9)
По известной из курса теории вероятностей формуле дисперсия времени без-
отказной работы:

1 2 − λt
D[ T ] = ∫ ( t − ) λe dt .
0
λ
Это выражение после интегрирования дает значение 1 / λ2 . При этом средне-
квадратичное отклонение σ = D[ T ] = 1 / λ
11

Таким образом, для нормального периода эксплуатации системы интенсив-


ность отказов остается постоянной и справедлива показательная модель надежно-
сти, время безотказной работы имеет экспоненциальный закон распределения.
Параметр потока отказов (средняя частота отказов) ω( t ) – плотность ве-
роятности возникновения отказа восстанавливаемого объекта, определенная для
рассматриваемого момента времени.
Если система состоит из n элементов, находящихся в нормальной эксплуата-
ции и работающих в одинаковых условиях, и в ней за время t наблюдалось m от-
казов, то параметр потока отказов будет составлять:
m
ω=
n⋅t
При λ( t ) = const средняя частота отказов ω( t ) = λ( t ) = const .

1.3.2 ПОКАЗАТЕЛИ РЕМОНТОПРИГОДНОСТИ.


Вероятность восстановления в заданное время – вероятность того, что время
восстановления не превысит заданного.
Время, затрачиваемое на обнаружение и устранение отказов, является слу-
чайной величиной, зависящей от ряда факторов: квалификации обслуживающего
персонала, качества применяемых в системе испытательных программ, полноты
контроля и сигнализации и т.п. Закон распределения времени обнаружения и уст-
ранения отказов приближается к экспоненциальному.
Среднее время восстановления tâ – это математическое ожидание времени
восстановления работоспособности, т.е. времени, затраченного на поиск и устра-
нение неисправностей. Если на отыскание и устранение m отказов было затраче-
но время t1 ,t1 ,...t m , то среднее время восстановления объекта можно определить
как:
1 m
tâ = m ∑
i =1
ti (1.10)

Пример 1.1. Интенсивность отказов элемента λ( t ) = at (1/ч). Определить


плотность распределения наработки до отказа f ( t ) .
Решение
В соответствии с выражением (1.6) f ( t ) = λ ( t ) ⋅ P( t ) .
t t
− ∫ λ ( t )dt at 2
С другой стороны P( t ) = e 0
, где ∫ λ( t )dt = 2 ; следовательно,
0
at 2 at 2
− −
P( t ) = e 2 . Таким образом, f ( t ) = at ⋅e 2 .
Пример 1.2. Какова вероятность безотказной работы объекта в течение сред-
ней наработки до отказа P( t ) , если плотность распределения наработки до отказа
− λt
f ( t ) = λe .
12

Решение
Искомая характеристика находится по формуле (1.7):
 t  ∞
P( t ) = exp − ∫ λ( t )dt  , где t = ∫ P(t )dt .
 0  0

f ( t ) λ e − λt
С другой стороны P( t ) = = = e − λt (1.6); следовательно,
λ( t ) λ
t
− ∫ λ ( t )dt
P( t ) = e 0
= e − 1 = 0 ,37 .
1.3.3 ПОКАЗАТЕЛИ ДОЛГОВЕЧНОСТИ.
Долговечность системы характеризуется ее наработкой от начала эксплуата-
ции до наступления предельного состояния. Эта наработка называется техниче-
ским ресурсом. Ресурс для каждого объекта может быть величиной случайной.
Долговечность ИС и ее элементов может оцениваться следующими показателями.
Средний ресурс – математическое ожидание ресурса.
Гамма-процентный ресурс – время, в течение которого объект не достигает
предельного состояния с заданной вероятностью γ процентов.
Назначенный ресурс – установленная в нормативно-технической документа-
ции суммарная наработка, при достижении которой дальнейшее применение сис-
темы по назначению следует прекратить независимо от ее технического состоя-
ния.
1.3.4 ПОКАЗАТЕЛИ СОХРАНЯЕМОСТИ.
В режиме хранения и (или) транспортирования, так же как и в режиме ис-
пользования, могут возникать отказы, поэтому сохраняемость характеризуется
показателями, аналогичными показателям безотказности: вероятностью невоз-
никновения отказов в течение заданного времени хранения (транспортирования),
средним временем хранения до отказа, интенсивностью отказов и параметром по-
тока отказов при хранении. Однако основным в эксплуатации системы является
применение, непосредственное ее использование по назначению, поэтому особое
значение приобретает оценка влияния хранения и транспортирования на после-
дующее поведение объекта в рабочем режиме. Показатели сохраняемости харак-
теризуют величину срока сохраняемости – календарной продолжительности хра-
нения (транспортирования) объекта в заданных условиях, в течение и после кото-
рой сохраняются значения заданных характеристик в установленных пределах.
Средний срок сохраняемости – математическое ожидание срока сохраняемо-
сти.
Гамма-процентный срок сохраняемости – срок сохраняемости, который бу-
дет достигнут объектом с заданной вероятностью γ процентов.
13

1.4 КОМПЛЕКСНЫЕ ПОКАЗАТЕЛИ НАДЕЖНОСТИ


Обычно комплексные показатели надежности используются для совместной
оценки свойств безотказности и ремонтопригодности восстанавливаемых объек-
тов.
Коэффициент готовности – вероятность того, что восстанавливаемый объ-
ект окажется работоспособным в произвольный момент времени его использова-
ния по назначению:
t
KÃ = P , (1.11)
tP + tÂ
где t P – суммарное время нахождения объекта в работоспособном состоянии; t Â
– суммарное время восстановления объекта.
Формула (1.11) широко применяется в инженерной практике. Степень ее
приближения к истинному значению Кг тем больше, чем больше интервал време-
ни, на котором определяется tp. Поток отказов и восстановлений при этом стано-
вится установившимся и Кг приобретает стационарный характер.
Коэффициент готовности, как правило, учитывает свойства аппаратурной
безотказности и восстанавливаемости. Если под отказом понимать не только от-
каз аппаратуры, но любой отказ системы в выполнении заданных функций (в том
числе вызванный дефектами программного обеспечения, снижением достоверно-
сти и т.п.), тогда Кг может выполнять роль комплексного показателя надежности
ИС, учитывающего и другие свойства системы. Поэтому при использовании ко-
эффициента готовности необходимо указывать, какие свойства объекта он
учитывает.
Коэффициент оперативной готовности – вероятность того, что объект, на-
ходясь в режиме ожидания, окажется работоспособным в произвольный момент
времени и, начиная с этого момента, будет работать безотказно в течение задан-
ного времени:
K ÎÃ = K Ã ⋅ P (t ç ), (1.12)
где P(tз) - вероятность безотказной работы на интервале заданного времени.
Коэффициент вынужденного простоя – вероятность того, что объект ока-
жется неработоспособным в произвольный момент времени в промежутках между
плановыми ремонтами:
t t
KÂ = 1− Ê Ã = 1− Ð = Â . (1.13)
tP + t tP + tÂ
Коэффициент сохранения эффективности – это отношение показателя эф-
фективности реального с точки зрения надежности объекта к показателю эффек-
тивности того же объекта при условии его идеальной надежности:
W
Ê ÝÔÔ = . (1.14)
W0
14

В качестве показателя эффективности может быть принята вероятность без-


отказной работы ЭВМ (в этом случае Ê ÝÔÔ = Ê ÎÃ ) или пропускная способность
системы массового обслуживания.
Достоверность функционирования информационной системы – это свойство
производить безошибочно преобразование, хранение и передачу информации.
Показатель достоверности – либо вероятность искажения, либо потери ин-
формации в одном знаке. Примерами количественной оценки достоверности мо-
гут служить следующие:
• вероятность ошибки при передаче данных по линиям связи составляет 10-3
- 10-5 на один знак;
• вероятность ошибки при хранении информации на машинном носителе
составляет 2⋅10-6;
• вероятность ошибки в выходных данных АСУ специального назначения
не должна превышать 10-10 - 10-12 на один знак.
Отличительными чертами сложных систем (АСУ, ИС, ВС) являются: много-
канальность, т.е. наличие нескольких каналов, каждый из которых выполняет оп-
ределенную функцию, частную по отношению к общей задаче системы; много-
связность, т.е. большое количество функциональных связей между элементами
системы; наличие вспомогательных и дублирующих устройств.
В связи с перечисленными особенностями сложная система может находить-
ся в нескольких работоспособных состояниях, так как выход из строя некоторых
ее элементов не вызывает полного отказа системы, т.е. прекращения ею заданных
функций, но ухудшает в той или иной степени качество функционирования. Сле-
довательно, отказ элемента переводит систему из состояния с полной работоспо-
собностью в состояние с частичной работоспособностью.
Информационную систему можно характеризовать функциональной и эф-
фективной надежностью.
Функциональная надежность Рф – вероятность того, что система будет удов-
летворительно выполнять свои функции в течение заданного времени. Функцио-
нальная надежность отличается от определения надежности, данного во введении,
тем, что учитывает наличие в системе дополнительных схем контроля.
Эффективная надежность Рэ – среднее значение (математическое ожида-
ние) величины, характеризующей объем и полезность выполняемых системой
функций в течение заданного времени по сравнению с ее предельными возможно-
стями. Введение понятия эффективной надежности обусловлено тем, что отдель-
ными показателями надежности не удается оценить функционирование сложной
системы. Сложная система кроме надежности каждого блока и всей системы ха-
рактеризуется еще относительной важностью потери тех или иных качеств. По-
этому под Рэ понимается некоторая количественная мера, оценивающая качество
выполнения системой своих функций. В ряде случаев выполнение конкретной ча-
стной задачи с некоторой эффективностью требует работоспособности лишь час-
ти аппаратуры. С другой стороны, даже при полной работоспособности всех бло-
15

ков системы нельзя говорить о выполнении некоторой задачи как о достоверном


событии. Основная идея определения эффективной надежности заключается в
том, что учитывают не только внутренние свойства системы, но и качество ее
функционирования и выполнения задачи.
1.5 ПОКАЗАТЕЛИ НАДЕЖНОСТИ СЛОЖНЫХ ОБЪЕКТОВ
Сложные системы состоят из более простых объектов (элементов). В зависи-
мости от характера влияния надежности элементов на надежность системы в це-
лом различают два типа соединений элементов – основное (последовательное) и
параллельное. Под последовательным соединением, с точки зрения надежности,
понимают такое, при котором отказ любого элемента приводит к отказу системы
в целом. Под параллельным соединением понимают такое, при котором отказ
системы наступает только при отказе всех ее элементов (отказ не наступает, если
работоспособен хотя бы один элемент).
1.5.1 ПОСЛЕДОВАТЕЛЬНОЕ СОЕДИНЕНИЕ ЭЛЕМЕНТОВ.
Пусть система состоит из n элементов, каждый из которых имеет определен-
ные характеристики надежности Pi(t), Qi(t), λi(t), t i (средняя наработка до отказа).
Если аналогичные показатели надежности системы обозначить соответственно
через P(t), Q(t), λ(t) и t , то можно получить следующие расчетные зависимо-
сти:
1. Из определения последовательного соединения элементов следует, что
вероятность безотказной работы:
n
P(t ) = P1 (t ) ⋅ P2 (t ) ⋅ K ⋅ Pn (t ) = ∏ Pi (t ). (1.15)
i =1

2. Вероятность отказа системы равна:


n n
Q(t) =1− P(t) =1−∏Pi (t) =1−∏[1−Qi (t)]. (1.16)
i=1 i=1

3. Интенсивность отказов системы найдем из соотношения:


t t n
n
− ∫ λ (t )dt − ∫[∑λi (t )]dt
P(t) = e 0 = ∏ Pi (t) = e 0 i =1 ,
i=1

откуда
n
λ (t ) = ∑ λi (t ). (1.17)
i =1
В случае постоянной интенсивности отказов [λ(t)=λ=const]:
 n 
n −  ∑ λi t
 
P (t ) = e − λ t = ∏ Pi (t ) = e  i =1 
,
i =1
16

откуда
n
λ = ∑ λi . (1.18)
i =1
Если разложить функцию P(t) в ряд и учесть только два первых члена
разложения, получим:
(λt ) 2 n
P(t ) = e −λt ≈ 1 − λt + ≈ 1 − λt = 1 − t ⋅ ∑ λi . (1.19)
2! i =1

4. Средняя наработка системы до отказа (λ=const):


n
∞ ∞ − t ∑ λi
1
t = ∫ P (t ) dt = ∫ e i =1
dt = n
. (1.20)
0 0
∑ λi
i =1

1.5.2 ПАРАЛЛЕЛЬНОЕ СОЕДИНЕНИЕ ЭЛЕМЕНТОВ.


1. Из определения параллельного соединения элементов вероятность отказа
системы равна:
n
Q ( t ) = Q1 ( t ) ⋅ Q 2 ( t ) ⋅ K ⋅ Q n ( t ) = ∏ Q i ( t ). (1.21)
i =1
2. Вероятность безотказной работы системы:
n n
P(t ) = 1 − ∏ Q1 (t ) = 1 − ∏ [1 − Pi (t )] ≈ 1 − (λt ) n . (1.22)
i =1 i =1

Допустим, что все элементы одинаковы, находятся в одинаковых условиях


эксплуатации и λt(t)=λ0=const. Тогда:
Q(t ) = (1 − e−λ0t )n ;
P(t ) = 1 − (1 − e− λ0t )n ;
d
Q(t )
f (t ) dt [(1 − e− λ0t )n ]′ n(1 − e−λ0t )n −1 ⋅ λ0 ⋅ e− λ0t (1.23)
λ (t ) = = = = ;
P(t ) P(t ) P(t ) 1 − (1 − e−λ0t )n
1 n 1
t= ∑ .
λ0 i =1 i
Эти выражения позволяют сделать вывод о том, что при параллельном со-
единении элементов надежность системы выше, чем надежность составляющих ее
элементов.
Пример 1.3. Система состоит из n параллельно соединенных равнонадежных
подсистем, вероятность безотказной работы каждой из которых P(t ) = e − λt = 0.9
17

Определить потребную кратность резервирования, чтобы вероятность безот-


казной работы системы была не ниже P0=0,99.
Решение:
Pñèñò (t ) = 1 − [1 − Pi (t )]n .
При параллельном соединении элементов
1 − [1 − Pi (t )]n ≥ 0.99 откуда 1 − 0.1n ≥ 0.99 или 0.01 ≥ 0.1n откуда n ≥ log 0.1 0.01
ln 0.01
т.е. n ≥ ≥2
0.1
Пример 1.4. Вычислительное устройство состоит из рабочего блока, блока,
находящегося в нагруженном резерве и автоматического переключающего уст-
ройства (ПУ). Интенсивность отказов каждого блока λ=10-2 1/ч. Отказы ПУ могут
быть двух видов: а) отказы, приводящие к нарушению работы всего вычислитель-
ного устройства, с интенсивностью λ1=10-4 1/ч; б) отказы, приводящие к невоз-
можности подключения резервного блока, с интенсивностью λ2 = 10-2 1/ч. Требу-
ется определить вероятность безотказной работы устройства в течение наработки
t=2 ч.
Решение
1.Составим логическую схему работоспособности устройства:
Рабочий блок
λ1 λ

λ2 λ

Резервный блок

− λ1 ⋅ t
P (t ) = e {1 − [1 − e − λ ⋅ t ] × [1 − e − ( λ + λ 2 ) ⋅ t ]} =
= (1 −λ1⋅t) ⋅{1 − [1 −1 + λ ⋅ t] ×[1 −1 + (λ + λ2 ) ⋅ t] =
= (1 −λ 1⋅t ) ⋅ [1 − λ ⋅ t ⋅ (λ + λ2 ) ⋅ t ] = (1 −λ 1⋅t ) ⋅ [1 − λ ⋅ (λ + λ2 ) ⋅ t 2 ].
2. На основании логической схемы составим уравнение для определения
вероятности безотказной работы всей системы, учитывая, что схема имеет сме-
шанное соединение элементов P = e − λt :
{ [ ][ ]} { [ ][ ]}
P(t ) = e − λ1t 1 − 1 − e − λt ⋅ 1 − e − λt e − λ2t = e − λ1t 1 − 1 − e − λt ⋅ 1 − e − ( λ + λ2 )t =
= (1 − λ1t ){1 − [1 − 1 + λt ][1 − 1 + (λ2 + λ )t ]} = (1 − λ1t )[1 − λt (λ + λ2 )t ] =
[
= (1 − λ1t ) 1 − λ (λ + λ2 )t 2 ]
т.е
P(0, ti ) = (1 − 2 ⋅10−4 ) ⋅ [1 −10−2 ⋅ (2 ⋅10−2 ) ⋅ 4] = 0,999.
18

Вероятность безотказной работы вычислительного устройства в течение


наработки (0, 2) ч равна:

Выводы
1. Показатели надежности сложного объекта типа АСУ или ИС имеют харак-
тер системы показателей. Чем большее число показателей надежности системы
определяется при анализе ее надежности, тем более подробным становится этот
анализ. Вместе с тем перечень используемых показателей надежности должен
быть не просто максимально полным, но и целесообразным, т.е. отвечающим за-
даче объективной характеристике требуемых свойств объекта.
2. В системе показателей надежности необходимо выделять основные и
вспомогательные. Для объектов, сложных по своей структуре, многофункцио-
нальных по решаемым задачам, используемых в различных рабочих режимах, к
основным показателям надежности относятся комплексные показатели надежно-
сти.
3. Количественные значения показателей надежности следует задавать с уче-
том двух противоречивых требований: с одной стороны показатель надежности
должен быть не ниже уровня, обеспечивающего требуемую эффективность, с дру-
гой стороны, он не должен превышать уровня, который может быть обеспечен
возможностями производства.
Задача проектирования системы заключается в том, чтобы выбором принци-
пиальной схемы, алгоритма и средств обеспечения надежности выполнить эти два
противоречивых требования. Для этого необходим всесторонний анализ возмож-
ных вариантов решения поставленной задачи с привлечением моделирования и
численных методов расчета.
4. Дальнейшее совершенствование показателей надежности современных
сложных систем продолжает оставаться актуальной задачей. Важнейшими на-
правлениями совершенствования являются внедрения показателей надежности,
учитывающих индивидуальную надежность конкретных объектов; показателей
надежности, учитывающих влияние надежности на эффективность, влияние про-
граммного обеспечения, человеческого фактора, живучести и достоверности.

2 ОСНОВЫ РАСЧЕТОВ НАДЕЖНОСТИ


2.1 ОБЛАСТИ ИСПОЛЬЗОВАНИЯ РАСЧЕТОВ НАДЕЖНОСТИ
Расчеты надежности имеют своей целью получение количественных значе-
ний показателей надежности исследуемого объекта. Эти расчеты стали обязатель-
ным элементом на всех этапах разработки, создания и использования технических
систем.
При анализе надежности системы основную трудность представляет составле-
ние структурной схемы расчета и аналитических (расчетных) формул. Если они
имеются (например, взяты из справочника), то расчет не представляет затрудне-
19

ний и получает преимущества перед другими способами исследования надежно-


сти.
Существующие в настоящее время расчетные формулы получены при боль-
шом числе ограничений (допущений). Наиболее часто такими ограничениями яв-
ляются:
• обязательность экспоненциального распределения времени до отказа
объекта и времени восстановления его работоспособности;
• исследуемые процессы – марковские, исследуемые потоки событий –
простейшие;
• при расчетах учитываются только средние значения показателей надежно-
сти.
На этапе эскизного проектирования расчет надежности производится с це-
лью прогнозирования ожидаемых показателей надежности.
На этапе технического проектирования результаты расчетов надежности
используются для обоснования выбора технических средств, входящих в систему,
а также для выбора способов резервирования, контроля и диагностики, обоснова-
ния структуры системы, требований к надежности комплектующих элементов и
программному обеспечению.
На этапе испытаний системы расчеты надежности проводятся с целью оп-
ределения соответствия показателей надежности испытуемой системы заданным
требованиям.
На этапе эксплуатации системы расчеты надежности используются для вы-
бора и обоснования состава и объема запасных изделий взамен отказавших, а
также для обоснованного планирования профилактического обслуживания.
2.2 ХАРАКТЕРИСТИКИ СЛУЧАЙНЫХ ВЕЛИЧИН И СЛУЧАЙНЫХ
СОБЫТИЙ
В работах по исследованию и обеспечению надежности большое место зани-
мают статистические методы исследований и вероятностные оценки надежности.
Это обусловлено тем, что события и величины, используемые в теории надежно-
сти, носят, как правило, случайный характер. Отказы объектов вызываются боль-
шим числом причин, связь между которыми установить не возможно, поэтому от-
казы изделий принадлежат к категории случайных событий. Время до возникно-
вения отказа может принимать различные значения в пределах некоторой области
возможных значений и принадлежит к категории случайных величин.
Случайное событие – это событие, которое может появиться или не появить-
ся в результате данного опыта.
Вероятность случайного события – это количественная характеристика слу-
чайного события. Она представляет собой теоретическую частоту событий, около
которой имеет тенденцию стабилизироваться действительная частота события
при повторении опыта в данных условиях.
Частота случайного события – статистическая вероятность события – от-
ношение числа появления данного события к числу всех произведенных опытов.
20

Примерами случайных событий, которые используются в прикладной теории


надежности, являются:
• событие, заключающееся в том, что на интервале времени от 0 до t объект
непрерывно находится в работоспособном состоянии. Вероятность такого
события обозначается P(t);
• событие, заключающееся в том, что на интервале времени от 0 до t изде-
лие может перейти в отказовое состояние. Вероятность такого события
обозначается Q(t);
• событие, заключающееся в том, что работоспособная к моменту времени t
система перейдет за время ∆t из состояния работоспособности (состояние
1) в состояние отказа (состояние 2). Вероятность такого события
P (t + ∆t ) = P (t ) ⋅ P1→ 2 ( ∆t ) (2.1)
Случайные события, следующие одно за другим в некоторой последователь-
ности, образуют поток случайных событий.
Ординарный поток событий - поток, при котором вероятность попадания
двух событий на один и тот же малый участок времени ∆t пренебрежительно ма-
ла (в один и тот же момент времени может произойти только одно событие).
Поток без последействия - поток, при котором будущее развитие процесса
появления событий не зависит от того, как этот процесс протекал в прошлом.
Стационарный поток - поток, параметры которого не зависят от времени,
т.е. плотность потока событий (среднее число событий в единицу времени) явля-
ется постоянной.
Поток, обладающий свойствами ординарности, стационарности и отсутствия
последействия, называется простейшим потоком или стационарным пуассонов-
ским потоком.
Нестационарный пуассоновский поток - это поток, обладающий свойством
ординарности и отсутствием последействия, но не обладающий свойством ста-
ционарности.
Простейший поток находит широкое применение в теории надежности ввиду
следующих факторов:
• имеется предельная теорема, согласно которой сумма большого числа не-
зависимых потоков с любыми законами распределения приближается к
простейшему потоку с ростом числа слагаемых потоков;
• практика исследования потоков отказов, потоков восстановлений и других
потоков, имеющих место при исследовании надежности, подтверждает
обоснованность предположений о широкой распространенности простей-
ших потоков.
Случайная величина – величина, которая в результате опыта может прини-
мать то или иное значение (заранее не известно, какое именно). Она может быть
либо дискретной (число отказов за время t, число отказавших изделий при испы-
таниях заданного количества образцов и т.п.), либо непрерывной (время работы
объекты до отказа, время восстановления работоспособности). Исчерпывающее
21

представление о случайной величине дает закон распределения случайной вели-


чины – соотношение между значениями случайной величины и их вероятностями.
Экспоненциальный закон. Функция распределения случайной величины:
F (t ) = 1 − e−λt = Q(t ) (2.2)
где λ - интенсивность (среднее число событий в единицу времени) появления
случайного события. Далее под t будем подразумевать время до возникновения
отказа.
Функция плотности распределения времени до отказа:
d d dP(t )
f (t ) = F (t ) = [1 − P(t )] = − = λ e − λt (2.3)
dt dt dt
где
P (t ) = e − λt (2.4)
это вероятность того, что за время t отказ не возникнет.
Интенсивность отказов λ (t ) изменяется во времени следующим образом:
f (t ) λe−λt
λ (t ) = = = λ = const (2.5)
P(t ) e−λt
Таким образом, признаком экспоненциального закона распределения време-
ни до отказа служит постоянство интенсивности отказов, что характерно для вне-
запных отказов на интервале времени, когда период приработки аппаратуры за-
кончился, а период износа и старения еще не начался. Также постоянной стано-
вится λ системы, если отказы вызываются отказами большого числа комплек-
тующих элементов, отказ каждого из которых приводит к отказу объекта.
Этими факторами, а также тем, что экспоненциальное распределение слу-
чайной величины существенно упрощает расчеты надежности, не вызывая значи-
тельных погрешностей, обусловлено широкое применение экспоненциального за-
кона в инженерной практике.
В табл. 2.1 приведены значения интенсивностей отказов для некоторых рас-
пространенных элементов ИС.
Таблица 2.1
Элементы и устройства λ⋅10-6 1/ч
Интегральная схема 0,1
Диод 0,2 – 0,5
Транзистор 0,05 –0,3
Конденсатор 0,002 – 0,04
Резистор 0,01 –0,1
Трансформатор 0,1 – 0,2
Разъем 2 – 3,5
Триггер на интегральных схемах 0,1
Память на дисках 250
Контроллер 10 – 15
Специализированная ЭВМ (13000 интегральных схем) 40
22

Закон Пуассона. Вероятность того, что на интервале времени t произойдет


n случайных событий (отказов) определяется формулой:
a n −a
Pn (t ) = e , (3.6)
n!
где a = λt - среднее число отказов на интервале времени t .
Время между двумя соседними событиями (отказами) подчиняется экспо-
ненциальному распределению с параметром λ , т.е. вероятность того, что на уча-
стке времени τ , следующим за одним из отказов, не появится ни одного отказа,
равна:
P(t ) = e − λτ .
Пример 3.1. Определить вероятность того, что за время t = 100 ч произой-
дет 0-2 отказа, если λ = 0,025 .
Решение
1) Среднее число отказов за время t : a = λt = 2,5 .
2) Вероятность отсутствия отказов P0 (100) = e −2,5 = 0,082.
(2,5)1 − 2,5
3) Вероятность одного отказа: P1 (100) = e = 0,205 .
1
(2,5) 2 − 2,5
4) Вероятность двух отказов: P2 (100) = e = 0,256.
2
Распределение Вейбулла. Модель распределения случайной величины, пред-
ложенная шведским ученым Вейбуллом, находит широкое применение ввиду сво-
ей простоты и гибкости, так как в зависимости от значений параметров, характер
модели видоизменяется. Она удобна для выбора наиболее подходящего аналити-
ческого выражения для определения показателей надежности объекта на основе
опытных данных.
Вероятность безотказной работы за время t:
α
P(t ) = e−λ0t , (3.7)
где λ0 ,α - параметры закона распределения.
Функция плотности распределения времени до отказа:
dP (t ) − λ tα
f (t ) = − = λ0α ⋅ t α −1 ⋅ e 0 . (3.8)
dt
Интенсивность отказов:
f (t )
λ (t ) = = λ0α ⋅ t α −1 . (3.9)
P(t )
Если α = 1 , то распределение Вейбулла совпадает с экспоненциальным рас-
пределением, у которого λ = λ0 . Если α < 1 , интенсивность отказов - монотонно
убывающая функция; при α > 1 интенсивность отказов - монотонно возрастающая
функция (рис. 3.1).
23

λ(t)

α>1
α=1

α<1
t

Рис 3.1 Зависимость λ=f(t) в модели


надежности Вейбулла

Ориентировочно значение α = 0,2 ÷ 0,4 для электронных устройств с убываю-


щей функцией интенсивности отказов и α = 1,2 ÷ 1,4 для механических устройств с
возрастающей функцией интенсивности отказов.
Распределение Вейбулла для времени до отказа системы возникает обычно
тогда, когда имеют место отказы различной физической природы (износ, старе-
ние, механические и электрические перегрузки и т.п.).
Пример 3.2. Пусть вероятность безотказной работы ВС за время t = 1000 ч со-
ставляет P(1000) = 0,99 . Составить прогноз вероятности безотказной работы этой
же системы через 100000 ч работы без обслуживания по экспоненциальной моде-
ли и модели Вейбулла.
Решение
3
а). В случае выбора экспоненциальной модели P(1000) = e −λ ⋅10 , откуда оп-
ределим интенсивность отказов ВС:
0,99 = e − λ ⋅103
; ln 0,99 = ln e ( − λ ⋅103
); λ = − ln100,99 = − − 1,00510 ⋅10
3 3
−2
≈ 10 −51 / ч = const.

Прогнозируемая вероятность безотказной работы через 105 часов:


−5 ⋅105
PЭ (10 5 ) = e −10 = e −1 = 0,37.
α
− λ0 ⋅ 103 
б). В случае выбора модели Вейбулла P(1000) = e  
, где α принята
равной 0,5. Тогда
− λ0 1000 − λ0 ⋅31, 62 ln 0,99 10 −2
0,99 = e =e , откуда λ0 = − =− ≈ 0,000318 .
31,62 31,62
Прогнозируемая вероятность безотказной работы через 105 ч:
5 ) 0, 5
PВ (10 5 ) = e −0,000318⋅(10 = 0,904 .
Следовательно, прогнозируемые показатели надежности работы объекта за-
висят от правильно выбранной модели.
24

Выбор модели надежности – сложная научно-техническая задача. Она может


быть решена методами математической статистики, если имеется большой стати-
стический материал об отказах исследуемой системы. Ввиду высокой надежности
ИС и ее компонентов, как правило, статистических данных об отказах немного. В
последнем случае при выборе модели руководствуются результатами ускоренных
испытаний, физическими соображениями, предыдущим опытом.
В случае приближенных оценок часто выбирается экспоненциальная модель
как наиболее удобная с точки зрения аналитических преобразований. Эту модель
рекомендуется использовать при выполнении расчетов надежности при отсутст-
вии других исходных данных, кроме интенсивностей отказов. В случае наличия
более полных исходных данных целесообразно пользоваться более точными мо-
делями, например, моделью Вейбулла.
Вероятностные процессы. Если случайная величина изменяется в процессе
опыта, то возникает случайная функция - функция, которая может принимать тот
или иной вид, заранее не известный. Если аргументом случайной функции явля-
ется время, то такая случайная функция называется вероятностным или случай-
ным процессом. Функционирование любой технической системы, в том числе ИС,
представляет собой реализацию вероятностных процессов, так как процесс смены
состояний объекта - это следствие потоков отказов и потоков восстановлений.
Чтобы охарактеризовать вероятностный процесс, необходимо указать тип
процесса и его числовые характеристики. Наиболее часто для описания процес-
сов, происходящих в системах, используется марковский процесс.
Марковский процесс - это процесс, у которого для каждого момента времени
вероятность любого состояния объекта в будущем зависит только от состояния
объекта в данный момент и не зависит от того, каким образом объект пришел в
это состояние.
Необходимым условием для марковского процесса является экспоненциаль-
ное распределение времени работы до отказа и времени восстановления работо-
способности. Важнейшая числовая характеристика такого процесса - вероятность
перехода объекта в то или иное состояние за заданный промежуток времени. Зная
это, можно определить вероятности каждого из возможных состояний объекта.
Пусть объект, состоящий из двух параллельно работающих элементов, может
находиться в состояниях 0, 1 и 2 (рис. 3.2). Состояние 0 - оба элемента, входящие
в объект, работоспособны; состояние 1 - один из элементов находится в отказовом
состоянии; состояние 2- оба элемента находятся в отказе. Из i-го состояния в j-е
объект переходит с постоянной интенсивностью λij , обратно - с постоянной ин-
тенсивностью µ ji .
25

а) 1 б) λ01 λ12

0 µ10 1 µ21 2
2

Рис. 3.2. Схема резервированного объекта (а) и граф его состояний (б).

Составим уравнения для определения вероятностей каждого из состояний


марковского процесса в рассматриваемом объекте (дифференциальные уравнения
А.Н. Колмогорова).
 dP0
 dt = −λ01 P0 (t ) + µ10 P1 (t );
 dP

1
= −(λ12 + µ10 ) P1 (t ) + λ01 P0 (t ) + µ 21 P2 (t ); (3.10)
 dt
 dP2 = − µ P (t ) + λ P (t ).
 dt 21 2 12 1

В практике расчетов надежности систему уравнений Колмогорова можно


получить непосредственно по виду графа состояний объекта, если пользоваться
следующим правилом: для каждого из возможных состояний объекта записы-
вается уравнение, в левой части которого dPi / dt , а в правой - столько слагае-
мых, сколько стрелок графа соприкасается с данным состоянием. Если
стрелка направлена в данное состояние, то перед слагаемым ставится знак
плюс, если стрелка направлена из данного состояния - знак минус. Каждое
слагаемое равно произведению интенсивности перехода из данного состоя-
ния (либо в данное состояние) на вероятность состояния, из которого выхо-
дит стрелка.
Решение системы (3.10) можно получить по известным правилам решения
системы дифференциальных уравнений. Однако его можно существенно упро-
стить, если учесть, что рассматривается стационарный марковский процесс, для
которого dPi (t ) = 0 (вероятности состояний не меняются с течением времени). То-
гда
0 = −λ01 P0 + µ10 P1 ;
0 = λ P − (λ + µ ) P + µ P ;
 01 0 12 10 1 21 2
 (3.11)
0 = − µ 21 P2 + λ12 P1 ;
 P0 + P1 + P2 = 1,
2
где последнее уравнение ∑P =1
i =0
i называется нормировочным условием, ко-
торое обусловлено тем, что первые три уравнения сводятся к двум (при трех не-
известных).
Решив систему линейных алгебраических уравнений (3.11), например, ме-
тодом Гаусса, найдем вероятности состояний системы.
26

Лекция 9.
2.2.1 РАСЧЕТ НАДЕЖНОСТИ С ИСПОЛЬЗОВАНИЕМ ЭЛЕМЕНТОВ
МАТЕМАТИЧЕСКОЙ ЛОГИКИ
Расчет надежности сложного объекта, по существу, является определением
истинности сложного высказывания. Использование аппарата математического
логики позволяет формализовать условия работоспособности сложных структур и
получать формулы для расчета надежности.
1. Если о системе можно утверждать, что она работоспособна, если рабо-
тоспособны ее элементы a и b, то можно сделать вывод о том, что работоспособ-
ность системы (событие с) и работоспособности элементов a и b (событие a и со-
бытие b) связаны между собой логическим уравнением работоспособности:
c = a ∧b.
Логическое уравнение работоспособности для данного случая может быть
представлено схемой последовательного соединения элементов a и b (рис. 3.3).
a b

Рис. 3.3. Схема последовательного соединения элементов.

2. Если о системе можно утверждать, что она работоспособна, если рабо-


тоспособны ее элемент a или элемент b, можно сделать вывод о том, что работо-
способность системы (событие c) и работоспособности элементов a и b (событие a
и событие b) связаны между собой логическим уравнением работоспособности:
c = a∨b.
Этому уравнению соответствует схема параллельного соединения элементов
a и b (рис. 3.4).
3. Если работоспособное состояние элемента обозначить через a , то нерабо-
тоспособное состояние этого элемента будет a . Логическое отрицание может
быть отражено в виде схемы инвертора (рис. 3.5).
a a a

Рис. 3.4. Схема параллельного Рис. 3.5. Схема инвертирования


соединения элементов.
4. Логические операции конъюнкции, дизъюнкции и отрицания - основные
операции, используемые в теории надежности, так как к ним могут быть сведены
все другие логические операции.
27

5. Сложную логическую функцию можно минимизировать, т.е. преобразо-


вать таким образом, что она будет содержать минимальное число членов.
6. Логические функции можно преобразовать в алгебраические функции, ес-
ли заменить все логические операции арифметическими по следующим правилам:
a ∨ b = a + b − a ⋅b ; a ∧ b = a ⋅b ; a = 1− a .
Логическая функция работоспособности F∧ , у которой все логические опе-
рации заменены арифметическими, называется функцией работоспособности,
представленной в арифметическом виде Fa .
Последовательность расчета надежности с использованием логических
схем. Чтобы получить формулу для вероятности работоспособного состояния
сложного объекта (функцию надежности), необходимо:
1) сформулировать словесно условие работоспособности системы;
2) на основании словесной формулировки записать логическую функцию
работоспособности F∧ ;
3) минимизировать F∧ (исключить повторяющиеся члены);
4) в логической функции работоспособности заменить логические опера-
ции арифметическими, т.е. получить функцию Fа ;
5) в арифметической функции работоспособности заменить простые со-
бытия (простые высказывания) их вероятностями;
6) в полученную формулу, дающую связь между вероятностями состояний
элементов системы и вероятностью состояния системы, подставить числовые зна-
чения вероятностей состояний элементов. Решением полученного уравнения яв-
ляется численное значение вероятности работоспособного состояния сложной
системы.
Пример 3.3. Определить вероятность работоспособного состояния
тракта передачи данных (рис. 3.6) при условии, что вероятности работоспо-
собных состояний элементов a, b, d, e равны по 0,9, а элемента с - 0,8.
а d

b е

Рис. 3.6. Структура тракта передачи данных


типа «мостик».

Решение
1). Словесная формулировка минимально необходимых условий работо-
способности тракта передачи данных: «тракт работоспособен, если работоспособ-
ны элементы a и d или элементы a, c и e или элементы b, c и d или элементы b и e.
28

2). На основании словесной формулировки запишем логическую функцию


работоспособности в следующем виде:
Fл = (a ∧ d ) ∨ (a ∧ c ∧ e) ∨ (b ∧ c ∧ d ) ∨ (b ∧ e) .
3). Разложим функцию Fл с целью исключения повторяющихся членов
(3.12):
Fл = c{ad ∨ ae ∨ bd ∨ be} ∨ c{ad ∨ be} .
Упростим логическое выражение в первых фигурных скобках:
a (d ∨ e) ∨ b(d ∨ e) = (d ∨ e)(a ∨ b).
В окончательном виде логическая функция работоспособности имеет сле-
дующий вид:
Fл = c{(d ∨ e)(a ∨ b)} ∨ c{ad ∨ be}.
4). Заменим логические операции арифметическими:
Fа = c{(d + e − de)(a + b − ab)} + (1 − c)(ad + be − adbe) .
5). Заменим события a, b, c, d, e их вероятностями и определим количест-
венное значение вероятности работоспособного состояния тракта:
P = Pc {( Pa + Pb − Pa Pb )( Pd + Pe − Pd Pe )} + (1 − Pc )( Pa Pd + Pb Pe − Pa Pd Pb Pe ) =
= 0,8{(1,8 − 0,81)(1,8 − 0,81)} + 0,2(0,81 + 0,81 − 0,812 ) = 0,977.

2.2.2 РАСЧЕТ НАДЕЖНОСТИ ВОССТАНАВЛИВАЕМЫХ СИСТЕМ


Как уже отмечалось ранее, в качестве показателей надежности восстанав-
ливаемых объектов используются параметр потока отказов ω (t ) , вероятность без-
отказной работы в течение наработки (0, t ) − P(t ) , коэффициент готовности K Г (t ) ,
коэффициент вынужденного простоя системы K П (t ) .
Нерезервированная система может находиться в произвольный момент
времени t в одном из двух состояний: 0 - система работоспособна; 1 - система не-
работоспособна и находится в ремонте.
Если обозначить вероятности этих состояний через P0 (t ) и P1 (t ) , то, оче-
видно, что K Г (t ) = P0 (t ) и K П (t ) = P1 (t ) . При длительной эксплуатации (t → ∞) могут
быть достигнуты установившиеся значения K Г = P0 , K П = P1 .
Если время безотказной работы и время восстановления имеют показа-
тельное распределение, то для вычисления функций готовности и простоя систе-
мы можно применить марковскую модель. Тогда в соответствии с графом состоя-
ний системы (рис. 3.11) имеем следующую систему дифференциальных уравне-
ний:
29

 dP0 (t )
 dt = −λP0 (t ) + µP1 (t );
 dP (t ) (3.15)
 1 = λP0 (t ) − µP1 (t ).
 dt
λ
0 1

µ
Рис. 3.11. Граф состояний
нерезервированной ремонтируемой
системы: λ - интенсивность
отказов; µ - интенсивность

Если при t = 0 система находилась в работоспособном состоянии, то


начальные условия P0 (0) = 1 , P1 (0) = 0 . Используя преобразования Лапласа,
получим:
SP0 ( S ) − 1 = −λP0 ( S ) + µP1 ( S );
 или
SP
 1 ( S ) − 0 = λP0 ( S ) − µ P1 ( S ).

 ( S + λ ) P0 ( S ) − µP1 ( S ) = 1;

− λP0 ( S ) + ( S + µ ) P1 ( S ) = 0.
Решим систему по формулам Крамера:
(S + λ ) −µ
∆= = ( S + λ )( S + µ ) − λµ = S 2 + Sµ + Sλ + λµ =
−λ (S + µ )
= S 2 + S ( µ + λ ) = S [S + (µ + λ )];
1 −µ (S + λ ) 1
∆1 = = S +µ; ∆2 = = λ.
0 (S + µ ) −λ 0
S+µ 1 µ λ
P0 ( S ) = = + ; P1 ( S ) = .
S [S + (µ + λ )] S + (µ + λ ) S [S + (µ + λ )] S [S + (µ + λ )]
Переходя от изображений к оригиналам (обратное преобразование Лапла-
са), получим:
( µ + λ ) e − ( µ + λ ) t + µ − µe − ( µ + λ ) t
K Г (t ) = P0 (t ) = e −( µ + λ ) t
+
µ
µ +λ
−0⋅t
e −e (−( µ + λ ) t
= ) µ +λ
=

µ λ
= + e −( µ + λ ) t . (3.16)
µ +λ µ +λ

K П (t ) = P1 (t ) =
λ
µ +λ
(
e −0⋅t − e −( µ +λ )t =
λ
− )
λ
µ +λ µ +λ
e −( µ + λ ) t . (3.17)
30

Если при t = 0 система находилась в ремонте, то P0 (0) = 0 , P1 (0) = 1 и


результатом решения системы (3.15) будет:
 µ λ −( µ + λ ) t
 K Г (t ) = P0 (t ) = µ + λ − µ + λ e ;
 λ λ
 K Π (t ) = P1 (t ) = + e −( µ + λ ) t .
 µ +λ µ +λ
При длительной эксплуатации получим стационарные значения коэффи-
циентов готовности и простоя, не зависящие от начальных условий:
µ
K Г = P0 = ;
µ +λ
λ
K П = P1 = .
µ +λ
1 1
Поскольку λ = , µ = , то приходим к уже известным выражениям:
tР tВ
1
tВ tВt Р tР tВ
KΓ = = = ; KΠ = , т.е. коэффициент готовности
1 1 t В (t Р + t В ) t Р + t В tР + tВ
+
tВ tР
характеризует долю времени, в течение которого система работоспособна, а ко-
эффициент простоя - долю времени, в течение которого она восстанавливается
(ремонтируется).
Если система имеет несколько работоспособных состояний, то функция
готовности системы определяется как
n
K Г (t ) = ∑ Pi (t ) , где n - число работоспособных состояний; Pi (t ) - вероят-
i =1
ность i-го работоспособного состояния.
Пример 3.6. Восстанавливаемая система с показательным законом
распределения времени безотказной работы и времени восстановления имеет
коэффициент готовности K Г = 0,95 .
Вычислить вероятность безотказной работы системы в течение наработки
(0,10) ч, если среднее время восстановления t В = 5 ч.
Решение
tp
Из соотношения K Г = = 0,95 находим значение наработки на отказ:
tР + tВ
K Г (t Р + t В ) = t Р ; 0,95t Р + 4,75 = t Р ;
4,75
tР = = 95 ч.
0,05
31

1 1
Интенсивность отказов λ = = 1/ч.
t Р 95
Вероятность безотказной работы в течение 10 часов:
10

− λt
P(0,10) = e =e 95 ≈ 0,9 .

3 ОПТИМАЛЬНОЕ РЕЗЕРВИРОВАНИЕ В ОТКАЗОУСТОЙЧИ-


ВЫХ ИС
3.1 ИСХОДНЫЕ ПОЛОЖЕНИЯ
При проектировании отказоустойчивых систем стремятся не только к дости-
жению необходимой их надежности, но и к достижению этой надежности при
минимальных затратах, т.е. к нахождению оптимального решения.
В отказоустойчивых ЭВМ и ВС существует ряд параметров x = {x1 , x2 ,..., xn }, от
которых зависит надежность системы. Сюда относятся количество резервных
элементов, устройств или подсистем, параметры систем контроля и диагностики,
характеристики программного обеспечения и др. Часть из этих параметров явля-
ются целочисленными (например, количество резервных элементов).
Рассмотрим задачи оптимизации, связанные с определением числа резервных
элементов системы с учетом ограничивающих факторов (затрат). Под затратами
будем понимать массу, габариты, стоимость, потребление энергии или другие ха-
рактеристики системы. Подобные задачи могут быть двух видов.
Задачи оптимального резервирования первого вида состоят в определении
требуемого количества резервных элементов, обеспечивающих максимум значе-
ния показателя надежности системы при величине затрат, не превышающей за-
данную:
П ( x) → max ,
x∈G

где G - ограничения в виде множества допустимых значений, налагаемые на


параметры x .
Задачи второго вида состоят в определении требуемого количества резерв-
ных элементов, обеспечивающих заданное значение показателя надежности сис-
темы при минимальных затратах:
ϕ ( x) → min,
П ( x) ∈ H

где H - ограничение, налагаемое на показатель надежности П (x) .


Задачи оптимального резервирования встречаются в системах с резерви-
рованием на уровне процессоров, устройств или других подсистем. Для их реше-
32

ния используют методы неопределенных множителей Лагранжа, градиентный,


прямого перебора и динамического программирования.
3.2 ОПТИМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ РЕЗЕРВОВ МЕТОДОМ НЕ-
ОПРЕДЕЛЕННЫХ МНОЖИТЕЛЕЙ ЛАГРАНЖА
Данный метод дает приближенное решение задачи, так как он оперирует
действительными числами, в то время как количество резервных элементов (под-
систем) выражается как целое число. Округление результатов до целых чисел вы-
зывает сдвиг экстремума в пространстве параметров, вследствие чего возникает
погрешность решения.
Пусть ВС состоит из n подсистем (процессоры, ОЗУ, внешние устройства
и др.) и каждая подсистема имеет mi резервов. Вероятность безотказной работы
( )
i − й подсистемы i = 1, n обозначим через Pi . Тогда вероятность безотказной рабо-
ты ВС выразится как

( )
n
P = П 1 − (1 − Pi ) i .
m
(4.1)
i =1

Чтобы упростить выражение (4.1), допустим, что Pi = 1 − qi → 1 , где qi - ве-


роятность отказа i-й подсистемы. Тогда вероятность отказа системы:
n
Q(m) = ∑ qimi , (4.2)
i =1

где m = {m1 , m2 ,..., mn } - вектор состава системы.


Масса, габариты или стоимость системы выражается в виде простой ли-
нейной зависимости:

( )
n
C = C m = ∑ ci mi , (4.3)
i =1

где ci - масса, габариты или стоимость i-й подсистемы.


При первой постановке задачи необходимо определить значения mi , обес-
печивающие min Q(m) при условии, что C (m) ≤ C зад , где C зад - заданное значение
массы, габаритов или стоимости системы. В этом случае функция Лагранжа F (m)
имеет следующий вид:
F (m) = Q(m) + ε (C зад − C (m)), (4.4)
где ε - неопределенный множитель Лагранжа.
Необходимые условия экстремума функции F (m) выражаются системой
уравнений:
 ∂F (m)
 = 0; (4.5)
 ∂mi
 C = C (m). (4.6)
 зад
33

Совместное решение уравнений (4.5) и (4.6) позволяет определить n оп-


тимальных значений mi , которые могут получиться нецелочисленными. Поэтому
необходимо производить округления этих значений до ближайших целых чисел.
После этого часть целочисленных значений сразу же исключается, поскольку для
них не выполняются накладываемые ограничения.
Функцию Лагранжа перепишем в виде:
n n
F(m) = ∑qimi +ε(Cзад −∑ci mi ) .
i=1 i=1

Подставив F (m) в уравнение (4.5), получим:


∂F (m)
= qimi ln qi − εci = 0,
∂mi

εci
ln
ln qi ln εai
откуда mi = = , (4.7)
ln qi ln qi
ci
где ai = .
ln qi
Для определения множителя Лагранжа ε , подставим mi из выражения
(4.7) в уравнение (4.6):

n
ln ε a i
n n
ln ε a n
C зад = ∑ ci m i = ∑ ci = ∑ a i ln q i ln q i = ∑ a i (ln ε + ln a i ) =
i =1 i =1 ln q i i =1 i i =1
n n n
= ln ε ∑ a i (1 + ln a i ) = ln ε ∑ a i + ∑ a i ln a i ;
i =1 i =1 i =1

следовательно,
Подставляя последнее выражение в (4.7), окончательно получим:

n
C зад − ∑ ai ln ai
i =1
ln ε = n
.
∑ ai
i =1

 n

1  C зад − ∑ ai ln ai 
mi =  n
i =1
+ ln ai . (4.8)
ln qi  
 ∑ a i 
 i =1 
34

При второй постановке задачи (найти оптимальное число mi для


обеспечения минимальных затрат при заданном уровне надежности) функция
Лагранжа примет вид:
F (m) = C (m) + ε (Qзад − Q(m)), (4.9)
где Qзад - заданное значение вероятности отказа. Перепишем функцию с уче-
том (4.2) и (4.3):
n n
F (m) = ∑ ci mi + ε (Qзад − ∑ qimi ). (4.10)
i =1 i =1

Для обеспечения экстремума F (m) необходимы условия:


 ∂F (m)
 = ci − εqimi ln qi = 0; (4.11)
∂mi
 n
 Qзад = ∑ qimi . (4.12)
 i =1

Из уравнения(4.11) находим mi :
ci
ln
ε ln qi ln ai ε
mi = = , (4.13)
ln qi ln qi
ci
где ai = .
ln qi
Находим множитель Лагранжа, подставив mi из (4.13) в (4.12):
n n
ai 1 n
Qзад = ∑ qimi = ∑ = ∑ ai ,
i =1 i =1 ε ε i =1

n
откуда ∑ ai
i =1
ε= .
Q зад
В окончательном виде выражение для определения оптимального резерва
i-й подсистемы имеет вид:
 n 
 ∑ ai 
ln ai − ln  i =1 
a  Q зад   
ln i    
ln ai − ln ε   = 1 ⋅ ln  ai ⋅ Qзад .
mi = ε = = n
(4.14)
ln qi ln qi ln qi ln qi  
 ∑ ai 
 i =1 
Выражения (4.8) и (4.14) являются приближенными из-за необходимости ок-
ругления результата. Ошибка получается особенно большой при малых mi . Кроме
35

того аналитический метод позволяет получать решения в явном виде только при
простейших моделях надежности.
Пример 4.1. Имеется система, состоящая из четырех подсистем (n=4). Под-
системы характеризуются стоимостями Ci и вероятностями отказа за заданное
время qi :
i 1 2 3 4
ci 1,2 2,3 3,4 4,5
qi 0,2 0,3 0,25 0,15

Требуется построить систему, т.е. оптимальный вектор состава системы


m = {m1m2 m3 m4 } , обладающую вероятностью безотказной работы P ≥ 0,99 при мини-
мальной стоимости.
Решение
1. Первоначальное состояние системы, когда нет резервов, описывается век-
тором состояния m = {1111}; при этом:
4
C = ∑ ci mi = 1,2 + 2,3 + 3,4 + 4,5 = 11,4;
i =1
4
Q = ∑ qimi = 0,2 + 0,3 + 0,25 + 0,15 = 0,9,
i =1

т.е. Р = 0,1.
2. По формуле (4.14) определяем оптимальное количество элементов каждой
подсистемы:
 
1  a1 ⋅ Qзад  1  − 0,746 ⋅ 0,01 
m1 = ln  4 = ln  = 4,29 ,
ln q1   = −1,609  − 7,481 
 ∑ ai 
 i =1 
c 1,2
где a1 = 1 = = −0,746 ;
ln q1 ln 0,2
1  − 1,91 ⋅ 0,01  c
m2 = ln  = 4,96 , где a 2 = 2 = −1,91;
− 1,204  − 7,481  ln q 2
1  − 2,453 ⋅ 0,01  c
m3 = ln  = 4,13 , где a3 = 3 = −2,453;
− 1,386  − 7,481  ln q3
1  − 2,372 ⋅ 0,01  c
m4 = ln  = 3,03 , где a 4 = 4 = −2,372.
− 1,897  − 7,481  ln q 4
36

Округляя результаты до ближайших целых значений, получим приближен-


ный оптимальный состав системы: m = {4543}. Таким образом, схема системы
имеет вид, приведенный на рис. 4.1.
1 2 3 4

1 2 3 4

1 2 3 4

1 2 3

Рис. 4.1. Оптимальная схема системы.

При этом:
Q = q14 + q25 + q34 + q43 =
= 0,2 4 + 0,35 + 0,254 + 0,153 = 0,011;
P = 1 − Q = 0,989 ≈ 0,99;
4
C∑ = ∑ ci mi = 43,4 ед.
i =1

Пример 4.2. Система состоит из двух блоков, соединенных последова-


тельно. Интенсивности отказов этих блоков равны λ1 = 4 ⋅ 10 −3 1 ,
ч
λ 2 = 2 ⋅ 10 −3 1 ; массы блоков с1 = 2 кг , с2 = 3 кг . Требуется определить опти-
ч
мальный состав блоков системы при ее резервировании с учетом того, что масса
системы не должна превышать 8 кг и вероятность ее отказа в течение наработки 1
ч должна быть минимальной.
Решение

Используем формулу (4.8), причем перепишем ее в виде:

 2

 C зад − ∑ ai ln(− ai ) 
1
mi =  i =1
2
+ ln(− ai ).
ln qi  
 ∑ ai 
 i =1 
37

c1 2
a1 = = = −0,362; a1 ln(− a1 ) = −0,362(−1,017) = 0,368;
ln q1 ln 0,004
c2 3
a2 = = = −0,483; a2 ln(− a2 ) = −0,483(−0,728) = 0,351;
ln q2 ln 0,002
2 2
∑ ai = −0,845; ∑ ai ln(−ai ) = 0,719.
i =1 i =1

1  8 − 0,719 
m1 =  − 1,017 = 1,69;
− 5,521  − 0,845 
1  8 − 0,719 
m2 = − 0, 728 = 1,27.
− 6,215  − 0,845 
Таким образом, m1 ≈ 2 , m2 ≈ 1 (рис. 4.2). При этом C ∑ = 2 ⋅ 2 + 1 ⋅ 3 = 7 кг,
2
Q = ∑ q imi = 16 ⋅ 10 −6 + 2 ⋅ 10 −3 ≈ 2 ⋅ 10 −3 .
i =1

1 2

Рис. 4.2. Оптимальный состав блоков


системы.

3.3 ОПТИМАЛЬНОЕ РЕЗЕРВИРОВАНИЕ МЕТОДОМ ДИНАМИЧЕ-


СКОГО ПРОГРАММИРОВАНИЯ
В отличие от аналитического решения задачи оптимального резервирования,
существующие численные методы позволяют найти точное решение и примени-
мы для весьма сложных моделей надежности.
Простейшим численным методом является метод прямого перебора, когда
сравниваются между собой все возможные варианты структуры и выбирается тот
из них, который лучше всего отвечает заданным требованиям. Однако число кон-
курирующих вариантов N получается очень большим, что резко ограничивает
практическое применение этого метода. Например, если система состоит из n
n
подсистем, каждая из которых имеет m-кратное резервирование, то N = П mi , где
i =1
mi - максимально возможное число параллельных подсистем i-го типа. При
n = 10 и mi = 10 получим N = 1010 , что практически исключает возможность пе-
ребора.
Метод динамического программирования является модификацией метода
прямого перебора. В этом методе для сокращения числа вариантов при переборе
38

вводится понятие доминирующая последовательность - подмножество вариантов,


перспективных с точки зрения поиска оптимального варианта.
Рассмотрим график вариантов технических решений в координатах «стои-
мость - вероятность отказа» (рис. 4.3).
С

Q
Рис. 4.3. Графическая
иллюстрация доминирующей
последовательности.

Из всех вариантов заданной (или меньшей) стоимости С интерес представ-


ляют только варианты, обладающие минимальной вероятностью отказа Q . Из
всех вариантов при заданной (или меньшей) вероятности отказа Q интересны
только варианты, отличающиеся минимальной стоимостью. Отсюда следует, что
из всего множества вариантов интерес представляют только те, которые находят-
ся снизу и слева на рисунке. Мощность (количество элементов) доминирующей
последовательности обычно намного меньше мощности множества всех вариан-
тов. Поэтому остается лишь выбрать оптимальное решение из вариантов, входя-
щих в доминирующую последовательность.
Применительно к задаче оптимального резервирования будем считать, что
один состав системы, представляющий собой некоторую комбинацию располо-
жения резервных элементов, доминирует над другим, если для одного и того же
уровня надежности обеспечение этого состава связано с наименьшими затратами.
Все неоптимальные решения, не входящие в состав доминирующей последова-
тельности в силу того, что они обладают большей величиной затрат при той же
надежности или меньшей надежностью при тех же затратах, чем члены домини-
рующей последовательности, исключаются из рассмотрения.
Пример 4.3. Рассмотрим порядок расчета оптимального состава системы
применительно к условиям примера 4.2.
Решение
Примем, что максимальное количество резервных элементов к блокам 1 и 2
равно двум. Для построения доминирующей последовательности составим табли-
цу:
39

Число K1 резервных блоков к блоку 1


0 1 2
1 2 2 4 3 6
-3 -6
4⋅10 16⋅10 64⋅10-9
0 4 3 7 5 8 7 9 9
Число K2 2⋅10-3 6⋅10 -3
2⋅10-3
2⋅10-3
резервных 1 5 6 10 8 11 10 12 12
блоков 4⋅10-6 4⋅10 -3
20⋅10 -6
4⋅10-6
к блоку 2 2 6 9 13 11 14 13 15 15
8⋅10-9 4⋅10 -3
16⋅10 -6
72⋅10-9
В клетках 7-15 записываем значения вероятностей отказов и затрат для по-
следовательного соединения блоков 1 и 2 с различным числом резервных блоков.
С учетом заданных ограничений получаем три члена доминирующей последова-
тельности - клетки 7, 8, 10.
Просматривая полученную доминирующую последовательность, находим
требуемый вектор состава системы, удовлетворяющий условию C ≤ 8 кг и мини-
муму вероятности отказа. Этот вектор состава находится в клетке 8 -
Q(t ) = 2 ⋅ 10 −3 и C ∑ = 7 кг, при этом K1=1 и K2=0, т.е. получаем оптимальную схе-
му системы, приведенную на рис. 4.2.
Пример 4.4. Требуется составить оптимальную схему передающего устрой-
ства, состоящего из трех последовательно соединенных блоков, которая может
быть получена путем введения нагруженного резерва к каждому блоку при усло-
вии, что вероятность отказа устройства за наработку (0, t i ) должна составлять
Q(t i ) ≤ 3 ⋅ 10 −2 при минимальных затратах. Исходные данные: Q1 (t i ) = 0,1 ,
C1 = 3; Q2 (ti ) = 0,02 , C 2 = 2; Q3 (t i ) = 0,01 , C3 = 1 .
Решение
Примем максимальное число резервных блоков равным двум. Вначале рас-
смотрим композицию блоков 1 и 2 и построим для них доминирующую последо-
вательность:
Число K1 резервных блоков к блоку 1
0 1 2
1 3 2 6 3 9
-2
0,1 10 10-3
0 4 2 7 5 8 8 9 11
⋅ ⋅ ⋅
Число K2 2 10-2 1,2 10 -1
3 10 -2
2,1⋅10-2
резервных 1 5 4 10 7 11 10 12 13
⋅ -1 -2
блоков 4 10-4 10 10 1,4⋅10-3
к блоку 2 2 6 6 13 9 14 12 15 15
⋅ -1 -2
8 10-6 10 10 10-3
40

С учетом заданных ограничений получаем четыре члена доминирующей


последовательности - клетки 8, 11, 12 и 15.
Далее строится таблица, в которую заносятся значения полученной домини-
рующей последовательности (клетки 1, 2, 3, 4) и значения Q( K 3 ) и C ( K 3 ) , полу-
ченные для блока 3:
Числа K1 и K2 резервных блоков, подключаемых к
блокам 1 и2
K1=1 K1=1 K1=2 K1=2
K2=0 K2=1 K2=1 K2=2
1 C12=8 2 C12=10 3 13 4 15
⋅ -2 ⋅
Q12=3 10 -2
10 1,4 10 -3
10-3
0 5 1 8 9 9 11 10 14 11 16
Число K3 10-2 4⋅10-2 2⋅10-2 1,14⋅10-2 1,1⋅10-2
резервных 1 6 2 12 10 13 12 14 15 15 17
блоков 10-4 3⋅10-2 10-2 1,5⋅10-3 1,1⋅10-3
к блоку 3 2 7 3 16 11 17 13 18 16 19 18
10-6 3⋅10-2 10-2 1,4⋅10-3 10-3

Просматривая клетки 8-19, находим требуемый вектор состава системы,


удовлетворяющий условиям Q(t i ) ≤ 3 ⋅ 10 −2 и минимуму затрат. Этот вектор нахо-
дится в клетке 12 - Q(t i ) = 3 ⋅ 10 −2 и C ∑ = 10 , при этом K1=1, K2=0, K3=1. Таким
образом, оптимальная схема передающего устройства имеет вид, приведенный на
рис. 4.4.
1 2 3

1р 3р

Рис. 4.4. Оптимальная схема передающего устройства.

4 КОНТРОЛЬ И ДИАГНОСТИКА ИС
4.1 ОБЩИЕ ПОЛОЖЕНИЯ
Под контролем ИС понимают процессы, обеспечивающие обнаружение
ошибок в их функционировании, вызванных отказами аппаратуры, ошибками в
программах или другими причинами.
В сочетании с мерами по резервированию контроль является одним из самых
эффективных средств повышения надежности и достоверности обработки инфор-
мации.
Ошибки, возникающие в процессе функционирования цифровых систем,
можно рассматривать как композицию следующих потоков ошибок: проектиро-
41

вания, операторов ЭВМ, исходных данных, в линиях связи при передаче данных,
при хранении информации на машинных носителях, сбоев в работе аппаратуры.
Ошибки проектирования. К ним относят ошибки в документации, аппаратуре
или программном обеспечении, которые не были обнаружены в процессе проек-
тирования и опытной эксплуатации системы, но проявились в процессе работы.
В математическом обеспечении ИС можно выделить следующие типы оши-
бок: программные, алгоритмические и системные.
Программные ошибки – ошибки, порождаемые неправильным использовани-
ем команд, операторов, адресации и т.п. Их количество зависит от квалификации
программистов и степени автоматизации проектирования программ. Алгоритми-
ческие ошибки возникают из-за неадекватности модели реальному процессу, не-
правильного выбора численного метода решения задачи. Системные ошибки яв-
ляются следствием неправильного взаимодействия алгоритмов друг с другом при
функционировании системы в целом.
Ошибки операторов возникают в работе системы из-за неправильных дейст-
вий обслуживающего персонала, а также вследствие плохой организации техни-
ческой эксплуатации. Поэтому важно правильно предусмотреть роль человека в
системе, учитывая его возможности по физическим, психическим и другим видам
нагрузок.
Ошибки исходных данных возникают в ИС, в которых большое количество
исходной информации подготавливается вручную. Например, при обработке эко-
номической информации наиболее характерными являются ошибки из-за непра-
вильного заполнения исходной документации и при вводе данных с исходных до-
кументов в ЭВМ.
Ошибки в линиях связи. Линии связи, предназначенные для передачи инфор-
мации, являются в настоящее время неотъемлемой компонентой большого числа
ИС. Средняя вероятность ошибки q для большинства линий связи составляет 10-3
– 10-5.
Ошибки, порождаемые неисправностями логических и специальных элемен-
тов. Для их вычисления необходимо знать вероятности возникновения ошибок
(неисправностей) в отдельных элементах. В инженерной практике, как правило,
предполагают, что поток неисправностей в работе элементов является пуассонов-
ским с параметром λ, причем значение λ состоит из двух составляющих, т.е.
λ=λ0+λсб, где λ0 – интенсивность отказов элемента, λсб – интенсивность сбоев.
Значения λ0, λсб определяют на основании испытаний аппаратуры на надежность
или с помощью статистических данных, полученных при эксплуатации. При от-
сутствии статистических данных по интенсивностям возникновения сбоев для
приближенных расчетов можно полагать, что λсб на порядок больше, чем интен-
сивность отказа.
Суммарный поток рассмотренных ошибок определяет возможность соблю-
дения временного регламента решения задач в ИС и достоверность информации,
получаемой при решении. Выдачу системой недостоверных результатов почти во
всех случаях следует рассматривать как отказ в ее работе. Поэтому понятие
42

«ошибка» в ряде случаев целесообразно рассматривать как явление искажения


информации, поддающееся с определенной вероятностью обнаружению и регист-
рации.
Для обнаружения ошибок в работе информационных систем широко исполь-
зуют различные методы контроля, позволяющие зафиксировать наиболее типич-
ные ошибки. Поэтому необходимо знание причин и характеристик возникающих
ошибок для правильного выбора метода контроля. Сбои, зафиксированные систе-
мой контроля, устраняют, и тем самым не допускается их распространение на вы-
ход системы. При обнаружении систематической ошибки требуется локализовать
и устранить причину ошибки.
Средства контроля ИС подразделяются на аппаратные, программные и
смешанные. Они характеризуются тремя основными параметрами: полнотой (глу-
биной) контроля, временем обнаружения ошибки и сложностью.
Полнота контроля оценивается как доля отказов, обнаруживаемых в резуль-
тате контроля, от общего их количества:
∑ λi ni
i∈M k
α= ,
∑ λi ni
i∈M
где M K - множество элементов, подлежащих контролю; M - множество всех
элементов системы; ni - число элементов i-го типа; λi - интенсивность отказов
элементов i-го типа.
Время обнаружения ошибки (время контроля) определяется как интервал
времени от момента возникновения ошибки до момента ее обнаружения.
Сложность средств контроля характеризуется массой, размерами, стоимо-
стью, потребляемой энергией, памятью и другими параметрами аппаратных
средств.
По характеру контроль в ИС подразделяется на оперативный и тестовый.
Оперативный контроль осуществляется в ходе решения задач и позволяет в
процессе их решения немедленно обнаруживать ошибку. Однако оперативный
контроль в принципе является неполным, поскольку выполняется на случайных,
не приспособленных для целей контроля задачах.
Тестовый контроль осуществляется в специально отведенные промежутки
времени на основе решения специальных, тестовых задач. Он основан на тестах,
обеспечивающих контроль всех элементов системы (аппаратуры, команд про-
граммы) за короткое время. Недостаток тестового контроля - затраты дополни-
тельного процессорного времени.
По способу организации различают контроль прямой, обратный и смешан-
ный.
При прямом контроле основной вычислительный процесс О с исходными
данными х и результатами у сопровождается параллельным вычислительным
процессом П (рис. 5.1, а). В случае безошибочной работы системы результаты
43

процессов О и П должны совпадать, что определяется устройством сравнения БС.


Если результаты отличаются, то БС выдает сигнал об ошибке. Если процессы О и
П осуществляются по одной и той же программе, то приведенная схема позволяет
выявить только сбои и отказы аппаратуры. В случае, когда информация обраба-
тывается по различным, но функционально эквивалентным программам, прямой
контроль позволяет, кроме того, выявлять и ошибки в программах.
х О у

а) БС
П
Сигнал
контроля

х у
О

П
б)
х

БС
Сигнал
контроля

Рис. 5.1. Схемы организации контроля.

Недостаток прямого контроля - большие затраты аппаратных средств. Они


могут быть снижены, если параллельный процесс П будет упрощен за счет сни-
жения точности: можно предположить, что большинство ошибок приведет к
сильному отклонению результата О от правильного значения, такому, которое пе-
рекроет погрешность результата процесса П и ошибка будет обнаружена по рас-
хождению между результатами процессов О и П.
При обратном контроле (рис. 5.1, б) параллельный процесс П с исходным
данными у и результатами х осуществляет обратное преобразование результата
контролируемого процесса О. Сопоставление обратного решения с исходными
данными позволяет обнаружить ошибку.
Недостаток обратного контроля, кроме ограниченности класса решаемых за-
дач, заключается и в том, что время, необходимое на получение контролируемого
решения, будет не меньше суммарного времени выполнения процессов О и П.
По объекту контроля различают контроль аппаратуры (АЛУ, функцио-
нальные преобразователи, память, управление, ввод-вывод), программного обес-
печения и работы операторов.
44

4.2 МЕТОДЫ АППАРАТУРНОГО КОНТРОЛЯ


При аппаратурном контроле в состав узла или устройства вводится избыточ-
ная (контрольная) аппаратура, которая функционирует одновременно с основной.
Сигналы, возникающие в процессе работы основной и контрольной аппаратуры,
по определенным законам сравниваются между собой. В результате этого сопос-
тавления вырабатывается информация о правильности функционирования кон-
тролируемого узла или устройства.
Контроль дублированием. Контроль дублированием является наиболее про-
стым способом аппаратного контроля. Суть метода состоит в том, что два одина-
ковых операционных устройства A и B работают синхронно при одинаковых ис-
ходных данных (рис. 5.2). В случае возникновения ошибки в одном из них, ре-
зультаты на выходах A и B будут различаться, что фиксируется устройством срав-
нения.
х у
А

В
БС
Сигнал
контроля
Рис. 5.2. Схема контроля
дублированием.

Полнота контроля дублированием приближается к единице. Необнаружение


ошибки может произойти по двум причинам: а) если в устройствах А и В одно-
временно возникнут одинаковые ошибки; б) если откажет устройство сравнения.
Недостатком контроля дублированием является большое количество необхо-
димой аппаратуры, а также то, что сравнение сигналов на выходе устройств по-
зволяет обнаруживать ошибку не сразу, а только при появлении ошибочных ре-
зультатов на выходе. Контроль дублированием применяется иногда для контроля
самых ответственных и труднопроверяемых узлов и устройств ЭВМ, например,
АЛУ.
Контроль по модулю. Наиболее широко в цифровых ЭВМ применяется кон-
троль по модулю. Он относится к неполному контролю, основанному на группи-
ровании чисел в классы эквивалентности. Если в случае возникновения ошибки
число переходит в другой класс эквивалентности, то такая ошибка обнаруживает-
ся простыми средствами. В противоположном случае ошибка не обнаруживается.
В один и тот же класс эквивалентности входят числа, сравнимые по модулю. В
случае, когда числа А1 и А2 имеют одинаковые остатки ra1=ra2, то говорят, что А1 и
А2 сравнимы по модулю q и записывают это условие следующим образом:
A2 ≡ A1 mod q или A1 ≡ A2 mod q .
Например, числа 6 и 11 сравнимы по модулю 5, так как 6 mod 5=1 и 11 mod
5=1.
Пусть некоторое целое положительное число представлено в виде
45

A = a ⋅ q + ra ,
где a, q, ra - также целые положительные числа. Тогда число q называется
модулем, число a - целая часть отношения A/q, ra - остаток A по модулю q, т.е. ос-
таток от деления (вычет) A на модуль q:
A r
=a+ a .
q q
Остаток ra для различных чисел может принимать значения 0, 1, 2, ..., q-1.
Таким образом, каждому целому числу А можно поставить в соответствие остаток
ra, полученный в результате деления A на модуль q. Это соответствие записывает-
ся в виде:
A ≡ ra mod q
и читается: число А сравнимо с остатком ra по модулю q.
С каждым остатком по модулю q сравнимо некоторое множество чисел. Все
они называются сравнимыми между собой по модулю q и составляют класс чисел,
сравнимых по модулю q.
Таким образом, разбив все кодовые слова на классы, можно параллельно с ос-
новной операцией в контролируемом устройстве выполнять в контролирующем
устройстве аналогичную операцию над их остатками. Результаты, полученные в
этих устройствах, будут принадлежать к одному классу.
А*

А М П1

r*
а

ra
БС
П2 Мд
ra

Рис. 5.3 Схема устройства хранения или


передачи чисел с контролем по модулю

Контроль хранения или передачи числа. Пусть число А передается по каналу


связи или записывается на магнитный носитель М. Тогда при помощи преобразо-
вателя П2 образуется остаток ra, который передается дополнительным каналом
связи (или записывается в дополнительное запоминающее устройство Мд). Про-
пускная способность дополнительного канала (или объем памяти дополнительно-
го ЗУ) при этом значительно меньше тех же характеристик основного канала или
ЗУ, т.к. разрядность остатка ra намного меньше разрядности числа А. Принятое
(или считанное) число А*, которое, возможно, содержит искажения, подвергается
также преобразованию П1 с образованием остатка ra*, который затем сравнивает-
ся с остаток ra. При несовпадении формируется соответствующий сигнал контро-
ля.
46

Числовой контроль арифметических операций. В основе числового кон-


троля по модулю лежат следующие две теоремы:
1. Сумма чисел Ai (i = 1, n) сравнима по модулю q с суммой остатков rai дан-
ных чисел:
n n
∑ Ai ≡ ∑ rai mod q .
i =1 i =1

2. Произведение чисел Ai (i = 1, n) сравнимо по модулю q с произведением


остатков этих чисел:
n n
П Ai ≡ П rai mod q .
i =1 i =1

Контроль сложения чисел (рис. 5.4.) производится на основании теоремы 1.


Кроме суммы A*, которая после сложения чисел А1 и А2 в сумматоре S1, воз-
можно, содержит ошибку, преобразователями П1 и П2 образуются остатки сла-
гаемых ra1 и ra2. После их суммирования в сумматоре S2 небольшой разрядности
получается остаток суммы остатков ra, который сравнивается с остатком ra*.
A*

A1 П3
S1
A2
ra*
ra1
П1
БС
S2
П2
ra

ra2

Рис. 5.4. Схема устройства сложения с


контролем по модулю.
Контроль умножения чисел (рис. 5.5) производится аналогично контролю
сложения, но с использованием теоремы 2. В приведенной схеме P1 - основное
множительное устройство, Р2 - вспомогательное множительное устройство не-
большое разрядности.
47

А1
Р1 А*
А2 П3
ra*

П1 ra1
Р2 БС

П2
ra
ra2

Рис. 5.5. Схема устройства умножения с


контролем по модулю.
Схема устройства деления чисел с контролем по модулю функционирует на
основании теоремы 1 и изображена на рис. 5.6. В этой схеме div - делительное
устройство, Р - вспомогательное множительное устройство небольшой разрядно-
сти.
А*
А1
div П rа *
А2

ra2
П Р БС

ra1
П

Рис. 5.6. Схема устройства деления с


контролем по модулю.
Кодовый контроль по модулю отличается от числового контроля по модулю
тем, что при этом контроле осуществляются операции с вычетами от суммы цифр
двоичного слова без учета их «веса», т.е. без учета того, к какому разряду принад-
лежат эти цифры.
Пусть, например, по каналу передается слово
A = an 2 n + an−1 2 n−1 + ... + a1 2 + a0 2 0.
Перед тем как послать это слово в канал, определяется сумма ∑ ai и в слу-
чае необходимости дополняется дополнительным разрядом так, чтобы вычет, т.е.
остаток от деления на модуль q, был равен вполне определенному числу. Вычет
числа, получаемый на выходе канала, контролируется. В случае расхождения с
ожидаемым результатом фиксируется отказ в выполнении задачи передачи ин-
формации.
48

Обычно используются модуль q=2 и вычет, равный либо 1 (при проверке на


нечетность), либо 0 (при проверке на четность). При таком контроле обнаружива-
ется невыполнение функции передачи данных, если имели место ошибки, т.е. за-
пись 1 вместо 0 и наоборот в одном, трех, пяти, семи, т.е. в нечетном числе разря-
дов. Для обнаружения ошибки в большем числе случаев необходимо увеличение
значения модуля, а, следовательно, усложнение контрольной аппаратуры.
4.3 ПРОГРАММНО-ЛОГИЧЕСКИЕ МЕТОДЫ КОНТРОЛЯ
Необходимость программного контроля обусловлена недостатками сущест-
вующих аппаратных методов контроля: недостаточными полнотой охвата и глу-
биной контроля всех устройств, большими затратами оборудования и, как следст-
вие, большой стоимостью. Кроме того, для ряда устройств и блоков ЭВМ в прин-
ципе трудно реализовать аппаратурный контроль.
Наибольший интерес представляют методы программного контроля, позво-
ляющие контролировать вычислительный процесс, т.е. правильность решения за-
дачи с помощью ЭВМ.
На первых этапах развития методов программного контроля широко приме-
нялся метод двойного-тройного счета. Однако он требовал для своей реализации
больших затрат машинного времени, что снижало производительность ВС более
чем в два раза. Поэтому возникла необходимость в разработке и практическом
внедрении более экономичных и совершенных методов контроля, которая приве-
ла к созданию алгоритмических и логических методов программного контроля
процессов решения задач на ЭВМ.
Алгоритмическим контролем называются специальные программные методы
проверки правильности реализации с помощью ЭВМ алгоритмов обработки ин-
формации и управления. Под реализацией алгоритмов понимается как процесс
вычислений, так и преобразование потока информации в требуемую форму для
последующей обработки или передачи потребителю.
Алгоритмический контроль предназначен для обнаружения и исправления
случайных сбоев, возникающих в процессе обработки информации в ИС. Он яв-
ляется частным случаем контроля методом двойного счета, но более экономич-
ным с точки зрения затрат машинного времени. При этом виде контроля задача
решается дважды: один раз по усеченному (упрощенному) алгоритму, а второй
раз - по основному. Полученные результаты сравниваются между собой по фор-
муле
X i 0 − X iy ≤ ∆X i ,
где хi0 - результаты решения задачи по основному алгоритму в i-м цикле
вычислений; хiy - то же, но по усеченному алгоритму; ∆X i - величина невязки, в
пределах которой расхождения между хi0 и хiy в i-м цикле считаются допустимы-
ми.
В случае вычисления хi0 и хiy по одному алгоритму (при двойном счете) срав-
нение результатов ведется на абсолютное равенство ( ∆X i =0).
49

Под усеченным алгоритмом понимают такой алгоритм, который позволяет


рассчитать те же параметры, что и основной алгоритм, но за более короткое время
с использованием специальных логических приемов и с учетом особенностей по-
строения алгоритма.
Логический контроль основан на избыточности исходной, промежуточной и
результирующей информации, используемой при вычислениях. Наличие избы-
точности позволяет в ряде случаев находить определенные контрольные соотно-
шения, при помощи которых можно обнаружить грубые ошибки.
а). Контроль по предельным значениям вычисляемых параметров.
Этот вид контроля состоит в проверке ряда условий, которые определяются
физической сущностью контролируемого параметра или математическими соот-
ношениями.
Например, правильность вычисления значений вероятностей различных со-
бытий контролируется по выполнению соотношения
0 ≤ P ≤ 1.
Если вычисляются углы A, B, C треугольника, то правильность их определе-
ния можно проконтролировать по выполнению равенства
A + B + C −π = 0.
Одним из частных случаев этого метода контроля является контроль скоро-
сти изменения переменных. Он применяется для контроля переменных хi, имею-
щих некоторый физический смысл и являющихся непрерывными функциями
времени. Сущность контроля заключается в том, что определяется скорость изме-
dx x (t ) − xi (t + ∆t )
нения переменной i ≈ i и проверяется условие xi min ≤ xi ≤ xi max .
dt ∆t
b). Контрольные соотношения с использованием дополнительных перемен-
ных.
Метод состоит во введении искусственных переменных, которые либо связа-
ны известными соотношениями с основными переменными, либо значения этих
переменных при определенных условиях известны заранее.
Пусть решается алгебраическое уравнение
Pn ( x) = a 0 x n + a1 x n −1 + ... + a n −1 x + ab = 0 ,
корни которого X k (k = 1,2,..., n) .
Перейдем к новому уравнению Pn +1 ( x) = ( x − a ) ⋅ Pn ( x) = 0 , корни которого
обозначим X l (l = 1,2,..., n, n + 1) . Первые n корней вспомогательного уравнения сов-
падают с корнями исходного, а последний (n+1)-й корень равен а. Тогда алгоритм
контроля правильности функционирования программы решения алгебраического
уравнения будет состоять в следующем:
- перейти от исходного уравнения к вспомогательному;
- найти все корни хl вспомогательно уравнения;
50

- для каждого полученного значения корня осуществить проверку xl − a < ε .


Если хотя бы для одного из корней неравенство выполняется, считается, что
уравнение решено верно.
В этом примере в качестве дополнительной переменной выступает заранее
известное значение одного из корней.
Метод находит ограниченное применение, так как в общем случае отыски-
ваются не все корни уравнения.
Данный метод может быть применен для контроля решения некоторых диф-
dy
ференциальных уравнений. Допустим, решается уравнение = y 2 + 1 при на-
dx
чальных условиях y ( x0 ) = y 0 .
Для контроля введем дополнительную переменную z, продифференцировав
дважды исходное уравнение:
d2y d3y
= 2y ; z = 3 = 2 .
dx 2 dx
Теперь, решая заданное уравнение, можно на каждом шаге или в контроль-
ных точках находить значение z и проверять условие z − 2 ≤ ε . Выполнение
неравенства свидетельствует о правильности вычислений.
c). Контроль обратным просчетом.
В данном методе по полученному результату находят исходные данные (ар-
гументы) и сравнивают их с начальными исходными данными. Если они совпа-
дают (с заданной точностью), то полученный результат считается верным.
Например, выполняется контроль правильности работы подпрограммы, вы-
числяющей y = 3 x . Для этого можно возвести в куб результат и предусмотреть
проверку условия:
y3 − x ≤ ε .
При выполнении этого условия делается вывод о правильности работы
подпрограммы.
Достоинство этого метода состоит в том, что он обнаруживает ошибки, воз-
никшие как в результате сбоев, так и отказов.
d). Контроль повторным счетом.
Сущность метода заключается в том, что отдельные действия по передаче
данных, переработке информации и т.д. повторяются многократно. Полученные
при этом результаты сравниваются между собой. Правильным считается тот, ко-
торый дает наибольшее количество совпадений.
Контроль повторным счетом позволяет с вероятностью, равной единице, об-
наруживать ошибки, возникающие в результате сбоев, и практически не обнару-
живает ошибок, возникающих в результате отказов аппаратуры.
51

4.4 ТЕСТОВЫЙ КОНТРОЛЬ


Принцип работы тестового контроля состоит в том, что на вход контроли-
руемого устройства подают специально подобранную совокупность входных воз-
действий и наблюдают реакцию на выходе. Сравнивая полученную реакцию с
эталонной, судят о правильности функционирования устройства.
Тестовый контроль обеспечивает проверку пребывания устройств ЭВМ в ра-
ботоспособном состоянии на момент контроля. В отличие от алгоритмического и
программно-логического, он не может быть использован для проверки состояния
устройств в процессе выполнения ими основной задачи, но может применяться
периодически в процессе функционирования ЭВМ между решениями основных
задач.
На практике строят такие тесты, которые обнаруживают не все, а только за-
ранее определенные отказы. Задача этих тестов состоит в проверке работоспособ-
ности устройства в целом с достаточно большой глубиной. Жестких требований
на время их выполнения не накладывается, поэтому данные тесты, как правило,
достаточно объемны.
Тестовый контроль устройств ЭВМ осуществляется при помощи специаль-
ных тест-программ, составленных из отдельных блоков. Все блоки построены по
единому принципу: вначале осуществляется подача на вход устройства входного
слова, затем происходит сравнение выходного слова с эталоном. Если они совпа-
ли, переходят к выполнению следующего блока, если не совпали, то автоматиче-
ская проверка прекращается.
Различают два вида проверок:
1). На постоянных словах, когда входные слова и эталоны подбираются за-
благовременно и в процессе контроля не меняются. Тест-программы, использую-
щие постоянные слова, обладают малым временем выполнения и обеспечивают
максимальный охват проверяемых элементов, однако они занимают большой объ-
ем памяти и их построение требует больших затрат времени.
2). На переменных словах, когда входные слова формируются по случайному
закону, а сравнение с эталоном осуществляется косвенным образом. Тест-
программы, использующие переменные слова, создают более тяжелые режимы в
работе устройств и , следовательно, позволяют произвести проверки с большей
глубиной.
Проверка на постоянных словах производится со специально подобранными
словами, при работе с которыми все отказы проявляются в виде искажений зара-
нее известных выходных слов.
Например, для контроля цепей сумматора обратных кодов целесообразно
выбрать следующие исходные операнды: a=1111...11, b=0000...01; c=0101...01,
d=1010...10 и выполнить операции a+b, b+a, c+d, d+c.
Первые две операции обеспечивают срабатывание всех цепей переноса и ре-
зультат при этом должен быть 0000...01. В двух последних операциях цепи пере-
носа не участвуют и результат должен быть равен 1111...11. Если в ходе контроля
52

указанные результаты не получены, то либо сигнал переноса в одном из разрядов


отсутствует, либо где-то возникает ложный сигнал переноса.
Проверка на переменных словах производится следующим образом. При по-
мощи генератора случайных слов формируются несколько случайных операндов
a, b, c, d, над которыми производятся либо две одинаковые операции и результаты
сравниваются, либо две взаимно-обратные операции и результаты сравниваются с
нулем, например:
a×b
a×b −b×a < ε , −b <ε .
a
Затем формируются новые случайные операнды и вновь производятся те же
операции. После многократного повторения данного участка тест-программы пе-
реходят к следующему участку. При достаточно большом количестве повторений
каждого участка получают весьма высокую вероятность обнаружения отказа в
аппаратуре.

5 ПРИНЦИПЫ ПОСТРОЕНИЯ ОТКАЗОУСТОЙЧИВЫХ ИC


5.1 ОСНОВНЫЕ ЗАДАЧИ СОЗДАНИЯ ОТКАЗОУСТОЙЧИВЫХ СИС-
ТЕМ
При создании новых систем для обработки информации перед разработчика-
ми стоят две основные задачи: а) достижение высокой производительности; б)
обеспечение высокой надежности.
Эти задачи противоречивы, и в каждом конкретном случае необходимо при-
нимать компромиссное решение. Путь решения первой задачи – повышение бы-
стродействия отдельных элементов ИС и максимальное распараллеливание про-
цесса обработки данных. При решении второй задачи возможны два основных
подхода:
1. Предотвращение отказов системы реализуется путем повышения техноло-
гического уровня изготовления компонентов ИС, минимизации ошибок разработ-
чиков, программистов, операторов. Улучшению надежностных характеристик от-
дельных подсистем способствует входной контроль, повышение степени интегра-
ции элементов, эффективные методы рассеивания тепловой энергии. Однако дан-
ный подход наталкивается на естественные ограничения технического и экономи-
ческого характера.
2. Создание отказоустойчивых систем. При этом допускается возникновение
отказов, но используются эффективные методы устранения их последствий.
Отказоустойчивость – свойство архитектуры ИС, обеспечивающее выпол-
нение заданных функций в случаях, когда в аппаратных и программных средствах
системы возникают отказы.
По способу реализации отказоустойчивость подразделяется на активную и
пассивную.
Активная отказоустойчивость базируется на отдельно выделенных процес-
сах обнаружения отказа, локализации отказа и реконфигурации системы. Отказы
53

обнаруживаются средствами контроля, локализуются при помощи средств диаг-


ностики и устраняются автоматической реконфигурацией системы. Последняя за-
ключается в перестройке структуры системы таким образом, чтобы ее отказавшие
компоненты были устранены от участия в работе.
Пассивная отказоустойчивость заключается в способности системы не по-
терять свои функциональные свойства в случае отказа отдельных элементов. В
таких случаях говорят, что отказ маскируется системой. Пассивная отказоустой-
чивость связана с увеличением количества аппаратуры в несколько раз; она при-
меняется обычно тогда, когда недопустимы даже кратковременные перерывы в
работе ИС, а также для обеспечения отказоустойчивости важнейших блоков или
устройств системы.
Применение активной отказоустойчивости характеризуется более эконом-
ным расходом аппаратных средств, однако связано с некоторыми потерями вре-
мени при восстановлении работы системы после отказа (иногда возможны потери
некоторой части данных). Активная отказоустойчивость реализуема только в
многопроцессорных системах. В то же время применение пассивной отказоустой-
чивости гарантирует практически бесперебойную работу ИС и сохранение всей
информации. Эти обстоятельства определяют области применения активной и
пассивной отказоустойчивости.
Введение отказоустойчивости является одним из способов повышения на-
дежности ИС. Вопрос о построении и применении отказоустойчивых систем воз-
никает тогда, когда другие пути повышения надежности не обеспечивают требуе-
мого ее уровня по техническим или экономическим причинам.
Отказоустойчивость системы обеспечивается введением избыточности, т.е.
созданием определенных запасов или резервов. В отказоустойчивых ИС может
быть использована избыточность параметрическая, временная, алгоритмическая и
структурная.
Параметрическая избыточность выражается в облегчении режимов работы
элементов и узлов аппаратуры с целью повышения их надежности. Однако для
правильно спроектированной системы эксплуатационные и другие параметры вы-
браны близкими к оптимальным, поэтому существенного увеличения надежности
за счет параметрической избыточности, достигнуто быть не может.
Временная избыточность заключается в наличии дополнительного времени
для решения задачи, с тем, чтобы в случае возникновения сбоев можно было ис-
правлять их путем повторной обработки данных. Временная избыточность созда-
ет предпосылки для реализации ресурсов по повышению отказоустойчивости,
имеющихся в данной системе (реконфигурация, повторение вычислений), по-
скольку для этого требуется дополнительное время.
Алгоритмическая избыточность заключается в применении таких алгорит-
мов, которые обеспечивают удовлетворительные результаты в случае наличия или
возникновения ошибок в процессе обработки информации. Алгоритмическая из-
быточность предполагает наличие временной избыточности и является средством
ее реализации. Например, свойствами избыточных алгоритмов обладают итера-
54

ционные алгоритмы, обеспечивающие сходимость при больших случайных от-


клонениях промежуточных результатов.
Структурная избыточность является наиболее эффективным видом избы-
точности. Она выражается в наличии дополнительных элементов, узлов, уст-
ройств в структуре системы, предназначенных для автоматической замены отка-
завших компонентов.
Структура пассивно отказоустойчивых систем основана либо на мажоритар-
ном принципе, либо на резервировании с контролем. Количество резервной и до-
полнительной аппаратуры в таких системах превышает количество основной ап-
паратуры.
Структура активно отказоустойчивых систем может быть различной. Актив-
ная отказоустойчивость может быть применена в многопроцессорных системах с
общей памятью, общей шиной, кольцевой, иерархической или другой структурой.
Ниже обзорно рассмотрены средства устранения последствий отказов и сбо-
ев, а также основные способы восстановления процесса обработки данных. В об-
щем же случае процесс функционирования отказоустойчивой ИС может быть
представлен схемой, приведенной на рис. 6.1.
Работоспособное состояние системы

Возникновение ошибки

Выявление ошибки

Локализация ошибки

Реконфигурация системы

Восстановление потерянной информации

Восстановление вычислительного процесса

Работоспособное состояние системы

Рис. 6.1. Последовательность состояний ИС.


55

5.2 СПОСОБЫ И СРЕДСТВА УСТРАНЕНИЯ ПОСЛЕДСТВИЙ ОШИ-


БОК И ОТКАЗОВ В ИС
Как известно, простейшим способом устранения ошибок является повторе-
ние вычислений. Однако он позволяет устранить только ошибки, вызванные
сбоями, и требует значительных затрат машинного времени. Поэтому в практике
используют два основных способа устранения последствий отказов и ошибок в
работе ИС (рис. 6.2):
- маскирование ошибочных действий;
- реконфигурация системы.
Способы и средства устранения последствий отказов и ошибок

Маскирование Реконфигурация

Статическая Динамическая
Корректирующие

переплетениями

голосованием
Логика с

Схемы с

Замещение

Дублирование
коды

«деградация»
Постепенная
Рис. 6.2. Классификация способов и средств устранения последствий
ошибок и отказов.
Суть первого способа состоит в том, что избыточная информация скрывает
действие ошибочной информации за счет особенностей схемных решений и орга-
низации процесса обработки данных. При этом используются средства устране-
ния последствий ошибок – средства маскирования, которые делятся по принципу
действия на следующие группы:
- корректирующие коды (коды Хэмминга, итеративные коды, AN-коды);
- логика с переплетениями;
- схемы с голосованием.
В последнем случае используется нечетное число блоков, выполняющих од-
ни и те же вычислительные операции, и большинством «голосов» определяется
правильный набор выходных данных.
Реконфигурация системы заключается в изменении состава средств обработ-
ки информации или способа их взаимодействия. Реконфигурация производится
56

после выявления отказа. Этот способ устранения последствий ошибок и отказов


включает:
- статическую реконфигурацию;
- динамическую реконфигурацию.
Статическая реконфигурация системы осуществляется путем отключения
отказавших компонентов. При этом система делится на две части: активную, уча-
ствующую в работе, и пассивную, охватывающую неработоспособные компонен-
ты системы и отключенные в ходе реконфигурации.
Динамическая реконфигурация по принципу проведения делится на следую-
щие виды:
- замещение (поддержка запасом);
- дублирование;
- постепенная деградация системы (снижение функциональных способно-
стей).
5.3 СПОСОБЫ ВОССТАНОВЛЕНИЯ ОТКАЗОУСТОЙЧИВОЙ ИС
После реконфигурации для продолжения нормальной работы системы необхо-
димо ее восстановить. Восстановление системы происходит на двух уровнях (рис.
6.3).
Способы восстановления

Аппаратный уровень Программный уровень


Возвращение к
Автоматическое

ние вручную)
(восстановле

Повторение

контрольной

выполнение
программы
операции

Повторное
Ремонт

точке

Рис. 6.3. Классификация способов восстановления ИС.

Аппаратный уровень. Здесь для восстановления отказавших компонентов ИС


используют два способа:
- автоматическое восстановление, реализуемое путем дополнительной ре-
конфигурации системы. При этом предполагается, что в системе имеется ряд за-
пасных блоков, благодаря которым она возвращается в работоспособное состоя-
ние. Производительность системы либо сохраняется, либо несколько снижается;
- ремонт (восстановление вручную). В этом случае отказавший блок выво-
дится из системы, и она либо продолжает работать с меньшей производительно-
стью, либо приостанавливается до возвращения отремонтированного блока в
активную часть ИС.
57

Программный уровень. Здесь осуществляется восстановление информации о


состоянии системы, необходимой для продолжения ее работы. В зависимости от
нарушений в работе системы (от количества ошибочной информации) можно вы-
делить следующие способы восстановления:
- повторение операции на различных уровнях (команд или микрокоманд).
Повторное выполнение некоторых операций может дать правильный результат,
если связанная с ними ошибка является случайной или временной (ошибка исче-
зает в процессе восстановления);
- возвращение к контрольной точке. Контрольной точкой называется некото-
рый этап процесса обработки информации, для которого зафиксированы (в запо-
минающем устройстве) промежуточные результаты и информация о состоянии
системы, позволяющая возобновить обработку данных. При обнаружении ошибки
система возвращается к контрольной точке, предшествующей моменту возникно-
вения отказа, и продолжает свою работу, используя данную точку в качестве ис-
ходной;
- повторное выполнение программы. При этом способе восстановления все
незавершенные (до возникновения отказа) программы выполняются с самого на-
чала. Это необходимо, когда в системе разрушено такое количество информации,
что восстановление путем повторного выполнения отдельных операций или уча-
стков программ невозможно. Данный способ применяется в случаях:
а) если последствия отказа успели отразиться на большей части системы;
б) если возможно восстановление только части вычислительных процессов;
в) если продолжение работы системы при использовании других способов
восстановления сопряжено с трудностями и большими затратами времени.
58

6 ИСПЫТАНИЯ НА НАДЕЖНОСТЬ
6.1 ЗНАЧЕНИЕ И ВИДЫ ИСПЫТАНИЙ НА НАДЕЖНОСТЬ
Испытания на надежность - это определение показателей надежности объ-
екта на основании непрерывного наблюдения за состоянием его работоспособно-
сти в условиях, предписанных методикой испытаний. Испытания на надежность
являются обязательным видом испытаний при изготовлении изделий и при при-
емке их от заводов-изготовителей. Методики проведения таких испытаний регла-
ментируются Государственными и отраслевыми стандартами.
Испытания на надежность могут дать объективную информацию о надежно-
сти объекта с учетом комплексного влияния всех действующих при его работе
факторов. Вместе с тем испытания на надежность обладают и отрицательными
сторонами:
1) они требуют больших затрат времени и средств. Кроме того, в процессе
испытаний расходуется значительная часть ресурса изделия;
2) результаты испытаний на надежность часто обращены в прошлое: об изде-
лиях, которые успешно выдержали испытания, можно сказать, что они до испы-
таний обладали такой-то надежностью и это подтверждено испытаниями.
Чтобы перенести выводы по результатам испытаний на надежность на пери-
од эксплуатации, необходимо выполнение ряда условий. Прежде всего необходи-
ма стабильность технологического процесса изготовления изделий, обеспечи-
вающая устойчивость показателей надежности. Если все изделия, изготавливае-
мые по определенной технической документации, обладают одинаковой надежно-
стью, то для определения показателей надежности большой совокупности изделия
достаточно испытать некоторую выборку изделий из этой генеральной совокуп-
ности. Этот способ применим для изделий массового производства. Для объектов
мелкосерийного и особенно индивидуального производства возникают серьезные
затруднения. Пути их преодоления различны и зависят от конкретных условия
производства и особенностей изделий. К таким путям относятся:
- обеспечение устойчивости показателей надежности объектов на значитель-
ном интервале времени, с тем, чтобы после проведения испытаний на надежность
оставался необходимый интервал времени, на котором сохраняется обнаруженная
при испытаниях надежность изделия;
- сочетание натурных испытаний с расчетом и моделированием.
По целевой направленности испытания на надежность подразделяются на
определительные, контрольные и специальные.
Определительные испытания - испытания, в результате которых определя-
ются количественные показатели надежности, как точечные (средняя наработка
до отказа), так и интервальные (среднеквадратическое отклонение времени рабо-
ты до отказа относительно среднего значения).
Контрольные испытания на надежность - испытания, в результате которых
контролируемые изделия по некоторым признакам и с заданным риском относят-
59

ся либо к категории годных, либо к категории негодных по уровню своей надеж-


ности. Такими признаками могут быть: отсутствие отказов на заданном интервале
времени; число отказов в случайный момент времени и т.п. По результатам таких
испытаний может быть сделан, к примеру, следующий вывод: изделия с риском
поставщика (т.е. с вероятностью забраковать годные), равным 0,02, и риском за-
казчика-потребителя (т.е. вероятностью принять негодные), равным 0,03, могут
быть отнесены к категории годных. Это менее информативный результат по срав-
нению с определительными испытаниями, но зато он требует меньшего объема
испытаний.
Специальные испытания на надежность - испытания, предназначенные для
исследования некоторых явлений, связанных с оценкой надежности (определение
долговечности, анализ влияния отдельных факторов на показатели надежности и
т.д.).
Чтобы испытания на надежность были менее трудоемкими и менее дорого-
стоящими, применяют специальные приемы:
1) ускорение испытаний путем использования таких режимов, которые при-
водят к ускорению процесса возникновения отказов;
2) прогнозирование отказов по изменению тех или иных параметров объекта;
3) использование предварительной информации о надежности испытуемого
изделия, а также принципа накопления информации, полученной из различных
источников.
6.2 ЗАДАЧИ, ВОЗНИКАЮЩИЕ ПРИ ИСПЫТАНИЯХ НА НАДЕЖ-
НОСТЬ
Ускорение испытаний. Ускоренные испытания – испытания в условиях, ко-
гда используются факторы, ускоряющие процесс возникновения отказов. Такими
факторами могут быть температура, повышенная нагрузка, влажность и т.п. Для
проведения ускоренных испытаний предварительно получают зависимости пока-
зателя надежности от изменения ускоряющего фактора или связь между значе-
ниями показателя надежности, полученными при различных условиях испытаний.
Исключение «анормальных» результатов испытаний. Статистические дан-
ные о надежности элементов, входящих в состав сложной системы, собираются
обычно на разных объектах. Поэтому важно обеспечить однородность статисти-
ческого материала. «Анормальные» результаты испытаний должны исключаться
из статистической совокупности по правилам исключения «анормальных» резуль-
татов измерений. Суть этих правил состоит в следующем:
1) если некоторое измерение хк внушает сомнение в его принадлежности к ге-
неральной совокупности, определяются: а) среднее значение хср и средне-
квадратическое отклонение σ генеральной совокупности без сомнительных
измерений; б) коэффициент k, равный
k = (хк - хср)/ σ,
60

N
где σ= ∑ ( xi − xcp ) 2 /( N − 1) ;
1

2) если k больше допустимого значения, указанного в специальной таблице


допустимых значений, то делается вывод о том, что хк не принадлежит к ге-
неральной совокупности.
Приведем извлечение из таблицы значений допустимых k:
Число 4 6 8 10 12 14 16
измерений
Значение k 1,49 1,94 2,22 2,41 2,55 2,66 2,75

Пример 7.1. Определить наличие “анормальных” измерений, если получены


измерения:
1. 0,9986 5. 0,9996 10. 0,9975 14. 0,9993
2. 0,9997 6. 0,9759 11. 0,9997 15. 0,9995
3. 0,9934 7. 0,9986 12. 0,9998 16. 0,9996
4. 0,9991 8. 0,9986 13. 0,9998 17. 0,9992
9. 0,9993

Предварительный анализ состава измерений ставит под сомнение результаты


3, 6, как существенно отличающиеся от остальных.
Произведем обработку основной группы измерений:
15
xcp = ∑ xi / 15 = 0,9990; σ = ∑ ( xi − xcp ) 2 /14 = 0,0008.
1

Определим значение k=7.


Определим по приведенной выше таблице предельно допустимое значение k
для 15 измерений. Оно не превышает 2,75.
Следовательно, полученное значение k для третьего измерения значительно
больше допустимого значения, поэтому результат третьего измерения – «анор-
мальный».
Использование косвенных признаков прогнозирования отказов. Для совре-
менных технических систем все большее значение приобретает предупреждение
отказов, а не их пассивная регистрация. Предупреждать же отказы можно только
тогда, когда возможно прогнозирование их возникновения.
К наиболее распространенным прогнозирующим признакам относятся при-
знаки, косвенным образом информирующие о надежности. Связь их с показате-
лями надежности выражается сложными зависимостями. Если эти зависимости
обнаружены и зафиксированы в виде графика, таблицы или математического вы-
ражения, то нетрудно по изменению косвенного признака определить прогнози-
руемую вероятность возникновения отказа.
61

В качестве прогнозирующих косвенных параметров могут, например, ис-


пользоваться:
- температура поверхности токоведущих элементов, зависящая от мощности рас-
сеяния, которая, в свою очередь, зависит от сопротивления элемента. Повышение
сопротивления часто предшествует обрыву цепи, поэтому изменение температу-
ры может использоваться в качестве косвенного параметра, прогнозирующего от-
каз;
- отношение прямого и обратного сопротивлений диодов (отклонение этого от-
ношения от номинального значения прогнозирует отказ).
Индивидуальное прогнозирование надежности. В практике испытаний на на-
дежность находит применение метод индивидуального прогнозирования, или ме-
тод, основанный на теории распознавания образов. В этой теории разрабатыва-
ются приемы, позволяющие относить исследуемый объект к той иной категории
объектов на основании некоторых признаков. На основе такой теории созданы
методы расшифровки старинных текстов, медицинской диагностики, опознавания
объектов и т.п.
Контрольные испытания на надежность так же, по существу, решают задачу
распознавания образа – на основании зафиксированного числа отказов или их от-
сутствия делается вывод о принадлежности изделия к определенной категории.
Но распознавание образа при контрольных испытаниях на надежность можно
развить дальше. Предварительно выбираются признак отказа изделия и несколько
контролируемых параметров, например, электрическое напряжение в нескольких
контрольных точках, сила тока, выделяемая мощность, коэффициент усиления и
т.д. Перед испытаниями проводится изучение зависимости изменения работоспо-
собности изделия от изменения контролируемых параметров. Строится распо-
знающая функция, т.е. такая функция, которая позволяет по ее числовому значе-
нию или по знаку определить, к какой категории относится данное изделие.
6.3 ВЫВОДЫ ОБ ИСПЫТАНИЯХ НА НАДЕЖНОСТЬ ИНФОРМА-
ЦИОННЫХ СИСТЕМ
При планировании испытаний ИС на надежность необходимо учитывать сле-
дующие особенности таких систем:
1. Процесс создания ИС - это длительный процесс, состоящий из нескольких
этапов. После выбора структуры системы, который сопровождается математиче-
ским моделированием, изготавливается аппаратура, входящая в состав системы.
Происходит постепенное наращивание аппаратных средств вплоть до создания
аппаратурных комплексов, выполняющих заданные функции ИС. Эта особен-
ность ИС требует, чтобы испытания на надежность также были непрерывным и
длительным процессом.
2. Аппаратные средства ИС состоят из различных комплектующих элемен-
тов. По своему назначению аппаратура подразделяется на средства вычислитель-
ной техники, передачи и хранения информации, отображения информации, ис-
точники питания и т.д. Аппаратура может быть электронной, электрической, оп-
тической и механической. Характер производства аппаратуры ИС также различен
62

- от изделий массового производства до изделий единичного выпуска. Эта осо-


бенность требует, чтобы испытания на надежность ИС состояли из набора про-
грамм испытаний, учитывающих специфику устройств и объем производства ап-
паратуры. Например, для аппаратных средств массового производства могут быть
запланированы выборочные испытания, а для изделий единичного производства -
испытания, основанные на расчетно-экспериментальном принципе.
3. На надежность ИС оказывают влияние разнообразные факторы. Эта осо-
бенность требует проведения испытаний, позволяющих выявить их влияние в
различных режимах использования системы.
Отмеченные особенности информационных систем позволяют сформулиро-
вать следующие рекомендации по проектированию испытаний на надежность ИС.
1. Испытания на надежность ИС должны представлять собой систему взаи-
мосвязанных испытаний, которые сопровождают процесс создания системы от
этапа проектирования до сдачи в эксплуатацию.
Не допускается механически переносить принципы организации испытаний
на надежность простых изделий, на организацию испытаний больших систем типа
ИС. Если для простых объектов массового производства испытания на надеж-
ность ориентированы либо на принятие, либо на забраковку объекта, то система
испытаний большой системы ориентируется на управление надежностью в ходе
ее создания. Это означает, что на различных этапах испытаний отвергаются или
принимаются комплектующая аппаратура, варианты структуры системы, способы
резервирования, контроля и другие технические решения для достижения главной
цели - обеспечить на заключительном этапе создания системы требуемую надеж-
ность.
2. Испытаниям на надежность следует подвергать объекты, предварительно
проверенные на функционирование. Надежность - это свойство сохранять работо-
способность. Если объект не подготовлен к выполнению заданных функций (не
настроен, не отрегулирован), то нет смысла подвергать его испытаниям на надеж-
ность.
3. В состав системы испытаний следует включать разнообразные виды и спо-
собы испытаний, отвечающих особенностям производства испытуемых объектов.
Для изделий, изготавливаемых в условиях массового или крупносерийного
производства, преобладающим видом испытаний являются определительные; для
изделий серийного и мелкосерийного производства - контрольные испытания и
сочетание контрольных испытаний с определительными; для изделий единичного
производства контроль надежности следует осуществлять путем контроля за фак-
торами, влияющими на надежность - качество технологического процесса, надеж-
ность комплектующих элементов и т.п.
4. Система испытаний ИС по времени их проведения включает в себя сле-
дующие основные этапы:
а) испытания аппаратуры и ее элементов с целью получения информации о
надежности частей системы;
63

б) испытания аппаратурных комплексов и системы в целом с использованием


информации о надежности аппаратуры;
в) уточнение оценки надежности системы по результатам подконтрольной
эксплуатации системы и ее частей.
5. Наиболее целесообразным решением проблемы оценки надежности ИС в
целом является расчетно-экспериментальный метод, т.е. сочетание натурных ис-
пытаний и расчетов, и последующее подтверждение полученных расчетных оце-
нок с помощью ограниченного объема испытаний.
6. Каждая большая система требует разработки своей методики испытаний,
отражающей ее особенности. Испытания элементов, входящих в состав большой
системы, следует рассматривать в качестве предварительного этапа испытаний
всей системы.

Оценить