Не пропатчили: как один маленький баг угробил 28 американцев

Янв 21 2018
+
23
-

Ни самая сильная армия в мире, ни штат программистов, ни новейшее вооружение не спасут от смерти, если в дело вмешаются математика и невнимательный кодер! Американцам пришлось прочувствовать эту истину на собственной шкуре.

Вечером 25 февраля 1991 года, уже под самый конец операции «Буря в пустыне», на американскую авиабазу в саудовском Дахране свалился иракский «Скад». Вот, казалось бы, причём здесь округление дробей?

Ракета разнесла казарму 475-го отряда квартирмейстерской службы армии США, ответственного за очистку воды. Взрыв убил 28 человек — это пятая часть всех погибших американцев за всё время войны в Заливе. Ещё около сотни получили ранения.

Последствия от попадания "скада"

«Скад» был обнаружен радаром дежурной батареи зенитного ракетного комплекса Patriot, прикрывавшей Дахран. Ракету засекли… и ничего не сумели сделать. Осталось только наблюдать, как она валится на казарму.

Как выяснилось, вину за смерть 28 человек взял на себя софт зенитного комплекса.

Давай округлим это по-быстрому

Баг в нём был простой, как кирпич. Не баг даже, а математическая фича: разработчики и военные о ней знали, и все на неё плевали, как на чепуховину ничего не значащую.

Внутренний таймер ЗРК Patriot устроен как счетчик количества интервалов времени, прошедшего с момента включения системы. Длина такого интервала — 0,1 секунды. Чтобы перевести количество этих отрезков в секунды, его, понятное дело, нужно разделить на 10. Что для этого предложили разработчики? Естественно, умножить на 0,1.

В машинной арифметике деление часто подменялось умножением на обратное число, так было проще проектировать вычислительные устройства и работали они быстрее. Метод умножения на обратное число, к слову, стар, как сама математика: его применяли ещё в древнем Вавилоне.

Теперь вторая часть Марлезонского кодирования. Числа-то двоичные.

Точного представления десятичной дроби 0,1 в двоичном виде не существует — оно может быть только приблизительным.

Поэтому бодрые наследники древнего Вавилона из корпорации Raytheon вместо десятичного 0,1 загнали в систему двоичное число 0,00011001100110011001100. Оно немногим меньше требуемых 0,1 — примерно на одну десятимиллионную. Вот на это число радостно и умножили, полагая, что проблема решена.

Кодеры действительно были правы, когда клеили этот «лейкопластырь». При расчёте параметров движения цели система оперирует близкими значениями времени с единой и очень небольшой систематической погрешностью. Поэтому никаких проблем быть не должно. Ситуацию признали нормальной для использования в реальных условиях — и забили. В таком виде комплекс и приняли на вооружение в 1982 году.

Если вчера война

А дальше? Дальше Саддам Хусейн более не смог выносить собственной крутости в одиночку и решил поделиться ею с окружающими, захватив летом 1990 года Кувейт. Саддам пацан был мутный и дерзкий, но не папуас какой, а вполне упакованный. Имелись у него и оперативно-тактические ракеты, самостоятельно модернизированные, а также химическое оружие.

Весь этот арсенал создавал проблему. Потребовалось срочно переделывать батареи Patriot для Ближнего Востока, чтобы те могли перехватывать баллистические цели, идущие со значительной скоростью — 1700 м/с и больше. А это, считай, гиперзвук; и среди аэродинамических целей, под которые первые версии Patriot рассчитывались, такие скорости не встречаются. Им больше самолёты подавай или крылатые ракеты.

 
Евгений Башин-Разумовский
Эксперт по историческим вопросам

В общей сложности на театре военных действий было развёрнуто 33 батареи Patriot. В том числе 22 батареи со 132 пусковыми установками — в Саудовской Аравии; четыре (из них две американские и две датские с 26 пусковыми установками) — в Турции; а начиная с 19 января, дополнительные силы ПВО были развёрнуты и в Израиле. Всего территорию Израиля прикрывали семь батарей: две израильские, четыре американские и одна датская, с 48 пусковыми установками.

Raytheon начал спешно улучшать систему. И, как оно бывает, доулучшался. Некое кодирующее туловище невыясненного системно-аналитического образования придумало устранить баг с неточным определением 0,1 и написало новую процедуру умножения.

Это была хорошая новость, потому что погрешность удалось снизить ещё больше. Плохая новость состояла в том, что туловище, когда переписывало старый код, вставило вызов этой процедуры не во всех случаях, где требовалось. Кое-где остался старый расчёт времени.

Вуаля! В системе завелось ДВА внутренних значения времени, используемых при расчёте РАЗНЫХ параметров. Различие между ними накапливалось тем сильнее, чем больше времени прошло с момента включения.

Теперь погрешности в математике ЗРК уже начали что-то решать, но об этом никто не думал. Потому что штатные проверки комплекса после переделки показывали, что всё ОК. Согласно программе испытаний: «Пункт 1: включили систему. Пункт 2: выставили режимы. Пункт 3: всё работает. Пункт 4: выключили. Переходим к следующему разделу».

Но никто не проводил «endurance test»: проверку на длительное дежурство на одном месте да против скоростных целей. А оно и зачем, если Patriot — это мобильный войсковой ЗРК для прикрытия боевых порядков? На одном месте ему по всем наставлениям стоять не следует, в том числе, в интересах собственной выживаемости.

Первыми за аномалию в работе комплекса зацепились не в США, а в Израиле. Развёртывающиеся боевые порядки страна прикрывать особо не собиралась, а вот собственная территория Израиль интересовала. Ну и по причине обычной национальной запасливости.

У ЗРК Patriot нет своих собственных накопителей для «логов» работы, поэтому комплексам полагались внешние. Но в армии США накопители не любили. Ходило вполне обоснованное мнение, что их софт какая-то очередная вавилонская ключница делала, и накопители периодически вешают всю систему. Поэтому операторы американских ЗРК на Ближнем Востоке их обычно не подключали, а вот в ЦАХАЛе всё сделали по инструкции.

Какой шлемазл это сделал?

Первые иракские «Скады» стартовали в сторону Израиля 18 января 1991 года. Израильские офицеры, однако, нашли время отсмотреть «логи». Уже 11 февраля от них в США прилетел первый «багрепорт»: после нескольких часов непрерывной работы ЗРК наблюдается необъяснимый дрейф параметров при переходе от режима обнаружения к сопровождению цели.

Радар при работе «на сопровождение» смотрит во вполне определенную узкую область пространства, где должна быть цель — так называемую «Range Gate Area», RGA. А ракета «Скада» быстрая, и надо чётко понимать, где она будет на следующем такте работы. Положение RGA определяется опережающим расчётом в зависимости от координат и скорости цели. А эта математика прямо завязана на точный отсчёт времени. А время у нас отсчитывается… ну, вы уже видели, как.

И с каждым часом отсчитывается всё косячнее. Израильтяне увидели, что границы окна, обсчитанные на этом косячном времени, начали ехать. Цель уже не посередине RGA, а ближе к краю, за 8 часов смещение процентов на 20 от центра окна.

Прикинули и поняли, что уже после 20 часов непрерывной работы цель вылезет за пределы окна, и тогда комплекс вообще перестанет брать цели на сопровождение, даже если видит их на обзоре. А значит, не сможет и обстрелять.

«Да ну, фигня, — отмахнулись генералы в Штатах. — У системы нормальный аптайм всего несколько часов. Зачем её вообще держать включённой постоянно? Ладно, по мере сил всё пропатчим и заапдейтим».

Надо заметить, что софтину ЗРК Patriot за тот нервный период с осени 1990 года перепатчивали уже аж шесть раз. Причем в пожарном порядке: надо было обучить аппарат противостоять иракским «Скадам» и «Аль-Хусейнам», и какая-то идиотская проблема многочасовой работы никого не волновала. Тем более, что накатывался один такой патч пару часов минимум, и всё это время комплекс должен стоять мёртвым куском железа. Кому это надо прямо во время войны?

Но 16 февраля патч таки написали и начали помаленьку ставить на комплексы. 21 февраля военное начальство, испытав нехорошее предчувствие в области собственных кресел, дополнительно разослало дежурную инструкцию для операторов ЗРК. Она состояла из одной фразы: не держите систему включённой «слишком долго», а то будут проблемы с захватом цели.

Но сколько это — «долго» — до разъяснений не снизошли.

Потом, после Дахрана, начальство оправдывалось, что полагало такое мудрое руководящее указание достаточным: догадаются, мол, сами. И вообще, война уже кончалась, все немного подрасслабились.

… Дежурная батарея «Альфа», принадлежавшая батальону, что прикрывал авиабазу Дахран, на вечер 25 февраля 1991 года имела аптайм больше четырёх суток

. За этот период накопленная ошибка составляла уже 0,343 секунды. Для баллистической цели типа «Скада» это означало смещение центра RGA почти на 700 метров относительно реального положения ракеты. И это при габарите самого RGA около 300 метров.

Проще говоря, собственный софт заставлял радар смотреть в гарантированно пустое пространство, и захват наблюдаемой в обзорном режиме цели не происходил.

Ракета «Скад» своё дело сделала.

А утром 26 февраля на Дахран приехали совершенно ничего не подозревавшие офицеры с накопителями. Они привезли… патч, исправляющий ошибку. Ну, просто по планам командования именно 26 февраля батарея «Альфа» должна была получить обновку. Раньше было никак: все борта на Ближний Восток забиты — всем что-то надо.

Борьба с дятлами

Дахранский «кейс» вошел во многие курсы по проектированию безопасных программных систем, некорректная работа которых может что-то сломать или кого-то убить.

Во-первых, если вы склеили софт слюнями, и он заработал, отдавайте себе в этом отчёт. Умейте видеть пределы прочности ваших заплаток.

Во-вторых, если ваш костыль не создаёт проблем сейчас, никто не поручится, что это навсегда. Побольше думайте о режимах, в которых система может работать, и поменьше — о тех, в которых якобы должна.

В-третьих, когда вы что-то исправляете в уже работающей системе, посмотрите на её устройство сверху и подумайте, как ваши действия отразятся на том, что она ДО ВАС делала ВРОДЕ БЫ нормально.

Только тогда ни один гуманитарный злопыхатель не посмеет сказать, что если бы архитекторы строили так, как программисты кодят, то цивилизацию угробил бы первый же залётный дятел.

 
Антон Железняк
Эксперт по техническим и инженерным вопросам

В общей сложности в ходе первой войны в заливе вооруженные силы Ирака запустили 88 ракет «Скад». 12 из них были выпущены по Израилю до развёртывания на его территории ЗРК Patriot, из 76 оставшихся 47 были обстреляны с расходом 158 зенитных ракет. При этом, по данным комиссии конгресса, только 86 ракет были запущены по реальным целям, а 72 — по ложным, либо по обломкам уже подбитых «Скадов», принятых за ракеты. Точное число сбитых «Скадов» оспаривается до сих пор, равно как и критерии подсчёта.

 

Самат Кудайбергенов 

Comment viewing options

Выберите нужный метод показа комментариев и нажмите "Сохранить установки".
iDOLLM4STER's picture
Submitted by iDOLLM4STER on Mon, 22/01/2018 - 13:41.

Вообще-то американцам повезло, могло быть и хуже... на порядок. 
Вот по этому... наши "металлисты" обычно станции РЦУ и ВЦУ разводили отдельно, даже в ламповом варианте дабы не устраивать "мэш". Даже на флоте. Первый раз крупно лоханулись "союзнички" при Фолклендах где "мэш" на комплексах ПВО/ПРО не смог в хранцузскую "Экзоссет". Про "Сакраменто" при "буре в стакане" я скромно умолчу. Там CIWS'ы тоже не смогли в "москита", хорошо что иракцы хреново стреляли. 
При всей лёгкости для оператора цифровая техника обладает таким диким количеством потенциальных дыр в системе, что порой от банального топора больше толку. 




СТАВЬТЕ ЛАЙКИ... ЗАЙКИ.
chuk011's picture
Submitted by chuk011 on Mon, 22/01/2018 - 11:07.

Дальше Саддам Хусейн более не смог выносить собственной крутости в одиночку и решил поделиться ею с окружающими, захватив летом 1990 года Кувейт. 

Ну да, "крутость". Теперь все делают вид, что не понимают, зачем Саддам поперся в Кувейт (который для иракцев, кстати, такая же утраченная в свое время провинция, какой для нас был Крым). Вот так простенько забыли, что Кувейт отказался прекратить наклонное бурение под иракскую территорию (которое кстати вели американские компании). Т.е. просто амеры в очередной раз залезли в чужой карман, а хозяин кармана имел наглость возмутиться. Они бы спасибо ему сказали, что не послушал наших советников и не раскатал эту банду в первый месяц после высадки, для чего имел все возможности... а история человечества могла бы пойти другим путем. Кстати, тема для альтернативщиков.

Alex999's picture
Submitted by Alex999 on Mon, 22/01/2018 - 10:37.

а как военная приемка допустило к принятию на вооружение подобную чушь? они там что- того?

Разгадывай врага-оставаясь непонятым.Видь врага-невидимо.Побеждай-неуязвимо. Обманывай врага- и не будь обманут.

MIG1965's picture
Submitted by MIG1965 on Mon, 22/01/2018 - 09:04.

    Это "нормальное" явление для устранения ошибок программного обеспечения.  Не совсем корректно видимо названа реальная причина.  Скорей всего чисто человеческий фактор.  Создатель ПО первый и его группа (или кто-то из нее) или уже "ушел в мир иной" или уволился.  Разобраться в чужом ПО практически невозможно, потому таких "багов" наверняка много еще и не устраненных.  Когда везли очередной патч для данной системы, что в нем только эта ошибка устранялась? При создании, как правило, продумывается взаимодействие комплекса с другими системами. Как созданными, так и перспективными. Но реальная отработка (а она может через много лет, после принятия на вооружение системы проработана) может дать любой результат. 

chuk011's picture
Submitted by chuk011 on Mon, 22/01/2018 - 10:56.

Скорей всего чисто человеческий фактор.  Создатель ПО первый и его группа (или кто-то из нее) или уже "ушел в мир иной" или уволился.  Разобраться в чужом ПО практически невозможно, потому таких "багов" наверняка много еще и не устраненных. 

Абсолютно верно. За несколько десятилетий взаимодействия с отечественными разработчиками НИ РАЗУ не имел счастья увидеть программный продукт с полностью, по ГОСТу, оформленной и ПРОВЕРЕННОЙ документацией. Даже на самый простейший продукт. Ох много крови было пролито, в т.ч. в прямом смысле... Причина - составление ПРАВИЛЬНОЙ документации, по которой с софтом можно разобраться человеку "со стороны", это не менее 50-90% общей трудоемкости продукта, ибо по сути представляет собой перенесение хитрозадых "заплаточных" логических выкрутасов разработчиков из их мозгов на бумагу (при этом часть из этих выкрутасов уже к этому моменту забыта, часть утрачена вместе с мозгами, а часть вовсе не имеет логичного объяснения).  И это несмотря на наличие приемки, проведение положенных испытаний и даже опытной эксплуатации. Результат всегда был именно этот - "Разобраться в чужом ПО практически невозможно"... и далее по тексту со всесми вытекающими...

alex66ko's picture
Submitted by alex66ko on Mon, 22/01/2018 - 11:46.

Тут проблема из ряда "не гонялся бы ты поп за дешевизною". Наверняка создание ПО было отдано на аутсорсинг, когда исполнитель сам четко не знает возможностей и ограничений аппаратной начинки ибо "военная тайна". Ну и на аутсорсинге обычно исполнение заказа идет с качеством "на и отье@сь"  и начинаются пляски с бубном с попыткой впихнуть квадратное в круглое.

 

chuk011's picture
Submitted by chuk011 on Mon, 22/01/2018 - 12:00.

И это тоже возможно. И тут накладывается еще одна проблема - написание ТЗ заказчиком. Это отдельная песня, там тоже Шекспир отдыхает - как заставить спеца в предметной области объяснить неспецу, чего собственно от него хотят и как "это" должно работать. Объяснить человеку, который половины нужных слов никогда не слышал. А потом "неспец" начинает задавать вопросы - в терминах, которых никогда не слышал железячник... Практика показала, что наилучший результат получается тогда, когда ПО разрабатывает сам создатель "железа", заставляя СВОИХ кодеров разбираться в железе, а железячников - в кодах. К концу серьезной работы такие ребята (и те, и другие) как правило приобретают вполне ощутимый "золотой" вес... Но сколько же на это уходит времени и сил!

grunmouse's picture
Submitted by grunmouse on Mon, 22/01/2018 - 17:24.

Ууу! Если бы ТЗ на здания писалось так же, как на ПО - до дятла бы не дошло: разрушение происходило бы уже на этапе заливки фундамента.

alex66ko's picture
Submitted by alex66ko on Mon, 22/01/2018 - 13:48.

Потому и экономят, уж больно "золотыми" ребятки становятся, а комиссии из сената не спят. Можно было сэкономить? Тогда почему не сэкономили?

 

chuk011's picture
Submitted by chuk011 on Mon, 22/01/2018 - 21:19.

И это знакомо. Если и заказчик и разработчик разумные ответственные люди и между ними не удается "вбить клин", то все комиссии следуют лесом - в темноте и по буеракам. Ибо такая экономия потом вполне может отразиться - резко отрицательно - на шкурах этих двух персонажей сей драмы (и первыми примчатся сдирать шкуры те самые "комиссары", уже с вопросом "почему не сделали как надо", причем это "как надо" будет меняться по ходу драмы). Но сначала при этом пострадают рядовые бойцы...

NF's picture
Submitted by NF on вс, 21/01/2018 - 21:05.

+++++++++++

Правду следует подавать так, как подают пальто, а не швырять в лицо как мокрое полотенце.

Марк Твен.

Tatcelvurm's picture
Submitted by Tatcelvurm on вс, 21/01/2018 - 18:30.

Интересная статья.

У аналоговой техники тоже хватает скольжения, но я их у себя не сильно замечал. Больше неисправности типа "Отвалился тумблер или целый ламповый блок". Техника то еще с Вьетнамской войны. А тут .. два времени в системе.

 

 

Не важно веришь  ли ты в Господа сын мой. Взвод! Цельсь! Пли!

Рейхс-маршал's picture
Submitted by Рейхс-маршал on вс, 21/01/2018 - 23:29.

неисправности типа "Отвалился тумблер или целый ламповый блок". 

- Что-то отвалилось...

- Ерунда! Половина крейсера еще осталась!

(Звездные войны III Месть ситхов)

Можно выстроить себе трон на штыках, но нельзя на него сесть!