четверг, 17 мая 2018 г.

Непрерывность в ИТ. Взгляд сбоку

Непрерывность в ИТ. Взгляд сбоку

Веруете ли вы в ИБП? В кластеры? В блэйды? А в резервные площадки?





По большому счёту, это не важно. Важно то, что ещё в начале 20-го века с появлением авиации, где любая поломка означала быструю, но мучительную, смерть, человечество начало всерьёз заниматься вопросами обеспечения непрерывности функционирования всяческого железа. С появлением софта, вопросы появились и к нему.

Но, что интересно, до сих пор, в большинстве случаев, людей, близких к ИТ, хватает на одно из двух: или мы ставим хороший ИБП, или мы делаем кластер из компьютеров... А дальше... Дальше любимый наш и родной «Авось».

Сейчас я скажу крамольную вещь: ни ИБП, ни кластер не могут реально помочь в обеспечении непрерывности функционирования современной ИТ-системы (хотя, без них, иногда, совсем беда). Более того, многие из существующих на сегодня «резервных вычислительных центров» или «резервных ЦОД»... бесполезны, по большому счёту. Т. е. они смогут работать и обеспечивать деятельность фирмы. Но, во многих случаях, на то, чтобы вся ИТ-система снова заработала, нужно потратить дни... Это при сегодняшнем стремлении к сведению простоев к секундам в год...

Тема большая, но для затравки хочу задать вопрос.

А что вы (ваша компания) используете для обеспечения непрерывности функционирования ИТ-систем?

Автор: Игорь Обухов.

Интересное...



Комментарии:


Mikhail Elashkin said:
Правильная тема поднята. С удовольствием почитаю. А потом можно будет добавить про такую экзотику как континентальные кластеры. У нас что-то подобное есть у ЦБ и ... даже не знаю.
А вообще интересная действительно тема. Вот в случае катастрофы 9-11 вроде все было зарезервировано, но ... оказалось, что провайдеры интернет не были полностью изолированы друг от друга и в случае катастрофы быстро перегрузили общий для всех сегмент сети.
А еще народ не смог проехать к резервным центрам данных. Т.е. центры стояли, но персонал встал в городе в пробках, которые всегда сопровождают катастрофы...
Мда, что-то я мрачно. Хотя... гром, как известно не грянет...

der_Tier said:
Я вот присматриваютсь к Erlang (http://www.erlang.org). Учитывая происхождение из сферы телекома и заложенные возможности - выглядит довольно интересно для создания живучего ядра системы.

Igor Obukhov said:
Про провайдеров, это верно. Я и на это намекал. Но есть еще несколько важных аспектов. Буду их потихоньку излагать.
На днях напишу некоторые "базовые" требования, которые сейчас пытаются ввести в виде стандарта, как раз про размещение ВЦ. Но интересный момент, что для ВЦ или ЦОД сам факт размещения в большом городе уже является весьма серьезным фактором риска.

Pylkin said:
> ВЦ или ЦОД сам факт размещения в большом городе уже является весьма серьезным фактором риска.
По-моему, размещение ЦОД в большом городе явлеяется гарантией наличия квалифицированных админов, сервис-службы и быстрой доступнопности зап.частей.

Alexander Kupriyanov said:
Лежала без дела хорошая публикация (не моя!) по теме.
Выкладываю:
Пожалуй, я первый, кто пишет русский обзор о работе ISP в условиях военного времени, под непрерывной бомбежкой. Даже сейчас, во время написания, постоянно слышу взрывы бомб, и своими глазами вижу вспышки.
Пользователи говорят об оседающих рядом зданиях, и даже был случай, когда саппорт общался с админом интернет кафе, там были посетители (в основном дети из этого же дома), админ говорил о том, что он ненавидит войну и террористов, и что хочет отсюда поскорее уехать... Взрыв, человек ушел в оффлайн.
Смотрим на мониторинг - узел в дауне. На место подъезжать сразу нельзя, неоднократно были случаи, когда начинали тушить возникший пожар и спасать людей, а через 5-15 минут наносился удар туда же. Позже разрушенное здание, скорая помощь, абсолютно безумные крики полные страха и боли, выносят людей по частям... Когда видишь детей, которых выносят фрагментами тел, начинаешь ненавидеть "миротворцев" и "демократию", их борьбу с терроризмом методом "точечных" ударов.
Итак, восстановим хронику событий
Со вторника (11.07) наблюдаем странные помехи, в определенное время начинает сбоить все беспроводное оборудование, спутниковый передающий и принимающий канал, в то же время оптика функционирует нормально. Были осуществлены попытки взлома биллинга с внешних адресов (какой-то финский институт), и изнутри, из района неподалеку от того, где находится Хезболла, попытки достаточно странные, ничего подобного ранее не встречалось.
Но свою положительную роль сыграл mod_security, php safe mode, chroot и т.п., ну и то, что я в тот момент отслеживал тщательнее возможные проблемы с безопасностью. Были жалобы от нескольких пользователей на взлом их компьютеров и воровство логинов-паролей.
В среду Хезболлой были похищены солдаты.
В ночь на четверг был разбомблен аэропорт, телестанция Хезболлы, мосты и дороги на юге.
В пятницу начинается активная бомбежка города, продолжающаяся по сей день. События можно легко отследить по mrtg основного приемного канала Кстати, мне сразу пришлось анализировать, почему упало потребление инета, и прикинуть, насколько нужно уменьшить внешние каналы, чтобы не уйти в минус. Анализ конечно предварительный, полная картина будет только через месяц.
1. Сразу после бомбардировки аэропорта, народ посчитал, что это их как всегда не касается, и бросился читать новости в интернете, вы видите пик вечером в четверг.
2. Ночью в пятницу нанесли удар по электропитанию южной части Бейрута, люди услышали бомбы, им стало мягко говоря не до интернета. Из-за частичной неготовности к длительному отключению электроэнергии, многие пользователи сидели в темноте. Ну и конечно испуг, все сидели по домам.
3. Владельцы sub-ISP бросились закупать батареи и топливо для генераторов, из 200 точек присутствия в мониторинге, отсутствовало около 30. Сейчас только 15, и те были разбомблены или отключены.
4. После починки, почти сразу началась бомбежка района, где находится Хезболла. Слава богу у нас были недавно подключены только несколько интернет-кафе, и то - через третью сторону, так называемый data provider, предоставляющий свой wireless. Часть из них разбомбили сразу, часть я отключил самостоятельно (не хочу, чтобы бомба упала на наши головы, только из-за того, что связь используется террористами).
5. Один из владельцев крупной точки присутствия (кстати христьянин, не имеющий отношения к террористам), погиб под бомбами, вместе со всем оборудованием. Он имел неосторожность расположиться рядом с стратегическим объектом (то ли АТС, то ли электроподстанция).
6. Ну и конечно почти все "юрики", т.е. предприятия не функционируют. Но вполне возможно, что интернет они оплатят.
Ключевые моменты в планировании бомбоустойчивого провайдера для тех, кто хочет чтобы функционирование продолжалось в условиях войны (не дай бог угодить вам в мою ситуацию). Вспомним долгие дискуссии на форуме nag, о моих идеях с использованием дешевого оборудования.
Местоположение. Не располагать ваши ключевые объекты в стратегических точках, излюбленные у нас АТС и подстанции бомбят в первую очередь. Коммуникационные вышки общего пользования - та же песня. Ну и конечно топливные склады и прочие промышленные объекты.
Электропитание, и снова электропитание. Генератор, способный работать хотя бы 20 часов в сутки. Батареи должны держать оборудование не менее 24 часов. Вполне вероятно, что из-за бомбежки вы не сможете добраться, и заправить генератор сразу. Но если ваши пользователи не подумали о питании (здесь почти каждый жилой дом имеет собственный дизель-генератор, из-за нестабильного "государственного" питания), то все ваши меры будут бесполезны.
Охлаждение и мониторинг. Температурный мониторинг, так как завести кондиционеры при батарейном питании не получится (это неразумно). Нужно просто вентилировать помещение. Если у вас гермозона без возможности внешней вентиляции, по нашему опыту, даже при небольшом количестве серверов температура без кондиционирования растет дико, сервера быстро отключаются из-за перегрева. Конечно, необходим хороший мониторинг всех объектов в сети, по нему сразу видно, где упала бомба или пропало питание.
Безопасность. Думаю слово "мародеры" много что скажет. В основном палестинцы-беженцы воруют wireless оборудование, его сложно прятать. Двух уже поймали.
Децентрализация. В случае полного бомбового попадания во все наши ключевые коммуникационные центры, практически 70% оборудования покупается в ближайшем супермаркете, бекапы хранятся вне страны, и провайдера можно восстановить в течении 1-4 суток. Более того, "мозговые центры" у нас есть и извне, при полном уничтожении персонала возможно восстановление любым специалистом, кто может поставить линукс и подключить его в сеть.
Дублирование "материальной" связи - беспроводной. Проводные и оптические линки обязательно дублировать беспроводкой. Когда падает бомба, обычно все подземные коммуникации рвутся в мелкие лохмотья, и засыпаются камнями. С оптикой понятно, дрова полные, но и провода раскопать нереально. Разумеется, гос-телекомы под бомбы не полезут ремонтировать.
Персонал. Возможно напишу жестоко. Лучше всего неженатые, и тем более без детей, с местным гражданством. Потому как про работу женатые забудут сразу, их жены скорее всего заставят превратить всю семью в беженцев, независимо от ситуации. Большинство "приезжих" консультантов в соседних компаниях, быстренько слиняло в свои страны.
Так же можно полагаться на outsourcing. Внешний персонал не сидит под бомбами, и нервничает меньше.
Удаленный офис. Нужно обеспечить возможность удаленной работы персонала. IP АТС позволит принимать звонки саппортом на дому, удаленный терминал позволит работать бухгалтеру из дома, jabber сервер позволит безопасно обмениваться информацией. Ну и конечно ключевые сотрудники должны быть обеспечены бесперебойной связью и электропитанием, т.е. подключение должно быть через "первые руки". В нашем случае один из сотрудников, подключенный не wireless, а через несколько ethernet сетей, оказался отрезанным от связи после первых бомб.
Резервирование оборудования, и его дешевизна:
° Носители. Использование носителей в виде USB flash оказалось практически идеальным. Винты от перегрева выходят из строя практически сразу. DOM Flash днем с огнем не найдешь, все закрыто, аэропорт разбомблен, как и все границы наглухо запечатаны самолетами противника. USB Flash покупаем в супермаркетах, которые по прежнему открыты.
° Серверы. В случае вышедшего из строя сервера Sun, при полном бекапе крайне тяжело найти ему замену. Весь софт на них собран под железо с оптимизациями и т.п. В случае использования обычного PC, любой компьютерный магазин, или даже старые запасы спасают даже в случае прямого попадания бомбы.
° Коммуникационное оборудование. Роутер на PC намного легче заменяется, чем, скажем, Cisco семитысячник. Wireless - то же самое, унифицированное недорогое решение. Лучше поставить два, и опираться на софт, в плане резервирования.
Электропотребление. Теоретизируя, думаю нашпигованный 3Com Total Control, в качестве PPPoE NAS гораздо хуже себя покажет в плане энергопотребления в случае уменьшения количества пользователей. В случае использования кластера из PC, ненужные можно выключать, и при необходимости подымать через Wake-on-lan.
Политика. Пожалуй самое главное. Категорически не вмешиваться в политику, и не осуществлять связь для любой из воюющих сторон, и тем более террористам. Иначе бомбы на вас упадут в первую очередь.
Самое удивительное, наиболее живучим показали себя не wireless линки, а ethernet. И линки не проброшенные по всем "правилам" в подземных коммуникациях, а висящие соплями.
После разрушения зданий к ним легче всего добраться, и легче всего их починить. Даже при разрушении верхней части здания, провод пролегающий под карнизом, с коробкой и свичом внутри обычно остаются целыми.
И последние слова в этом обзоре, но надеюсь не мои последние слова. Я остаюсь здесь, и не буду эвакуироваться с гражданами своей страны. Просто не могу бросить работу и своих друзей. Пожелайте мне и мирным ливанцам удачи, чувствую она потребуется.
Заметку прислал Denys Fedoryshchenko, он же nuclearcat на форуме.

Igor Obukhov said:
Александр, публикация действительно очень сильная. Обязательно сохраню ее... Действительно, очень много аспектов затронуто. Хотя, конечно, жизнь в условиях непрерывной катастрофы несколько отличается от жизни в условиях, когда катастрофы случаются раз в год. И некоторые из подходов к оборудованию должны отличаться.
To Pylkin:
Есть плюсы, есть минусы. Есть один из первых точных приборов, изобретенных человечеством: не помню как они правильно называются, но сейчас сохранились в основном в виде аптекарских весов. На одну чашу сыпем плюсы, на другую минусы. Смотрим, что перевешивает...


Другие посты по этой теме:



0 коммент.:

Отправить комментарий

Ваш комментарий появится в блоге после проверки администратором