Проблемы с доступом к сайту 29.06-02.07: почему было и что мы изменили Подробнее →
Реклама в магазине
Banner
Отчёт об инциденте

Инцидент 29 июня — 2 июля: что произошло и что мы сделали

С вечера 29 июня по 1 июля сервис был полностью недоступен. Инцидент завершён, работа восстановлена в полном объёме, данные пользователей не пострадали.

Понимаем, что длительная недоступность сервиса создала неудобства. Приносим извинения и ниже подробно объясняем, что произошло.

Недоступность
около 40 часов
Потери данных
Нет
Резервирование
Внедрено

Хронология

  1. Сервис стал недоступен: в дата-центре хостинг-провайдера произошёл сбой системы охлаждения, оборудование было аварийно отключено.

  2. Специалисты дата-центра вели восстановительные работы: замену компонентов системы охлаждения и подключение мобильного холодильного оборудования. Параллельно мы развернули резервный сервер и начали восстановление данных.

  3. Работа сайта восстановлена.

  4. Завершены стабилизационные работы, инцидент закрыт.

Что произошло

В дата-центре хостинг-провайдера произошёл серьёзный сбой системы охлаждения. Чтобы избежать перегрева серверов и повреждения оборудования и данных, часть инфраструктуры была аварийно отключена — это стандартная защитная мера. Инцидент носил масштабный характер: он затронул крупных хостинг-провайдеров и ряд небольших компаний, отключёнными оставались тысячи серверов. Поэтому восстановление заняло больше времени, чем обычные технические работы.

Данные

Данные пользователей не пострадали. Система охлаждения не связана с хранением данных: серверы были отключены штатно, до перегрева. После восстановления целостность данных подтверждена, дополнительно сформированы резервные копии.

Что мы предприняли

Во время инцидента команда развернула резервный сервер, выполнила восстановление данных и подняла инфраструктуру. После восстановления мы провели стабилизационные работы и внесли ряд изменений в архитектуру и процессы: ключевые компоненты зарезервированы, чтобы снизить риск повторения подобных ситуаций и сократить время восстановления, если сбой на стороне дата-центра всё же произойдёт.

За 9 лет работы сервиса мы впервые столкнулись с инцидентом такого масштаба. Выводы сделаны, меры приняты.

Команда проекта