Анализ инцидента на Платформе NGENIX [16.01.2023, 13:30]:
Хронология
13:30 – Обнаружили падение трафика на Платформе.
13:32 – Создан внутренний инцидент максимального влияния, проведена эскалация.
13:41 – Предварительно выяснили, что инцидент связан с проблемами на сетях операторов-партнеров (значительные потери пакетов).
14:10 – Предположительно локализовали источник проблемы и связались с операторами-партнерами по поводу инцидента.
14:29 – Потери на сети резко снизились.
14:35 – Работа сети полностью восстановлена. Влияние инцидента устранено.
Причины
Причиной инцидента послужила проблема на сети оператора-партнера "Билайн". Получили подтверждение о массовом инциденте с маршрутизацией в период 13:30 - 14:50, который произошел из-за некорректного анонса большого количества префиксов.
Среди заанонсированных префиксов были префиксы нашей AS34879, в результате чего часть маршрутов к нашим AS стали некорректными.
Влияние было устранено после фильтрации проблемных префиксов на стороне оператора Билайн.
Выводы
Инциденты подобного вида трудно диагностировать и невозможно напрямую повлиять на их исправление. Сейчас мы сфокусированы на том, чтобы быстрее выявлять причины и источники проблемы.
Мы уже пересмотрели протоколы внутреннего и внешнего взаимодействия для улучшения коммуникации и ускорения решения проблем.
Также мы рассматриваем технические решения, которые улучшают мониторинг и ускоряют диагностику подобных ситуаций.