Инцидент 29 июня — 2 июля: что произошло и что мы сделали
С вечера 29 июня по 1 июля сервис был полностью недоступен. Инцидент завершён, работа восстановлена в полном объёме, данные пользователей не пострадали.
Понимаем, что длительная недоступность сервиса создала неудобства. Приносим извинения и ниже подробно объясняем, что произошло.
- Недоступность
- около 40 часов
- Потери данных
- Нет
- Резервирование
- Внедрено
Хронология
-
Сервис стал недоступен: в дата-центре хостинг-провайдера произошёл сбой системы охлаждения, оборудование было аварийно отключено.
-
Специалисты дата-центра вели восстановительные работы: замену компонентов системы охлаждения и подключение мобильного холодильного оборудования. Параллельно мы развернули резервный сервер и начали восстановление данных.
-
Работа сайта восстановлена.
-
Завершены стабилизационные работы, инцидент закрыт.
Что произошло
В дата-центре хостинг-провайдера произошёл серьёзный сбой системы охлаждения. Чтобы избежать перегрева серверов и повреждения оборудования и данных, часть инфраструктуры была аварийно отключена — это стандартная защитная мера. Инцидент носил масштабный характер: он затронул крупных хостинг-провайдеров и ряд небольших компаний, отключёнными оставались тысячи серверов. Поэтому восстановление заняло больше времени, чем обычные технические работы.
Данные
Данные пользователей не пострадали. Система охлаждения не связана с хранением данных: серверы были отключены штатно, до перегрева. После восстановления целостность данных подтверждена, дополнительно сформированы резервные копии.
Что мы предприняли
Во время инцидента команда развернула резервный сервер, выполнила восстановление данных и подняла инфраструктуру. После восстановления мы провели стабилизационные работы и внесли ряд изменений в архитектуру и процессы: ключевые компоненты зарезервированы, чтобы снизить риск повторения подобных ситуаций и сократить время восстановления, если сбой на стороне дата-центра всё же произойдёт.
