Метка: multi-zone architecture

  • Итоги инцидента с питанием в Yandex Cloud

    Итоги инцидента с питанием в Yandex Cloud

    30 марта 2025 года произошел серьезный сбой в одном из важных центров обработки данных Яндекса. Сервисы, которые работали на этом центре, временно перестали работать из-за проблем с электропитанием. Это произошло из-за сбоя в электросети после аварии на подстанции, из-за которой перестали работать несколько линий электропередачи.

    Ключевые моменты:

    — Авария началась в 12:18 по московскому времени, и в течение нескольких минут напряжение упало до критического уровня.
    — Обе линии электропередачи, которые питали центр обработки данных, отключились одновременно, что редко случается.
    — Для поддержания работы важных систем были задействованы дизельные генераторы, но они не смогли справиться с полной нагрузкой.
    — Восстановление работы центра заняло около 10 часов, и к полуночи все сервисы были полностью восстановлены.

    План по предотвращению повторения сбоев:

    — В Яндексе планируют пересмотреть риски энергоснабжения и улучшить системы резервирования.
    — Они сосредоточатся не только на технических решениях, но и на оперативных мероприятиях и устойчивости в разных зонах.
    — Для клиентов Yandex Cloud будут доступны новые инструменты для защиты от сбоев, такие как Zonal Shift.

    Яндекс подчеркивает, что важно иметь систему, способную работать в разных зонах. Опыт с 30 марта показал, что необходимо пересмотреть системы резервирования и подготовки к редким аварийным ситуациям для повышения надежности работы.