Проблема с сетевой доступностью
Incident Report for NGENIX
Postmortem

Анализ инцидента на Платформе NGENIX [16.01.2023, 13:30]:

Хронология

13:30 – Обнаружили падение трафика на Платформе.

13:32 – Создан внутренний инцидент максимального влияния, проведена эскалация.

13:41 – Предварительно выяснили, что инцидент связан с проблемами на сетях операторов-партнеров (значительные потери пакетов).

14:10 – Предположительно локализовали источник проблемы и связались с операторами-партнерами по поводу инцидента.

14:29 – Потери на сети резко снизились.

14:35 – Работа сети полностью восстановлена. Влияние инцидента устранено.

Причины

Причиной инцидента послужила проблема на сети оператора-партнера "Билайн". Получили подтверждение о массовом инциденте с маршрутизацией в период 13:30 - 14:50, который произошел из-за некорректного анонса большого количества префиксов.

Среди заанонсированных префиксов были префиксы нашей AS34879, в результате чего часть маршрутов к нашим AS стали некорректными.

Влияние было устранено после фильтрации проблемных префиксов на стороне оператора Билайн.

Выводы

Инциденты подобного вида трудно диагностировать и невозможно напрямую повлиять на их исправление. Сейчас мы сфокусированы на том, чтобы быстрее выявлять причины и источники проблемы.

Мы уже пересмотрели протоколы внутреннего и внешнего взаимодействия для улучшения коммуникации и ускорения решения проблем.

Также мы рассматриваем технические решения, которые улучшают мониторинг и ускоряют диагностику подобных ситуаций.

Posted Jan 17, 2024 - 17:59 MSK

Resolved
Временное нарушение маршрутизации, связанное с утечкой префиксов, в сетях ряда операторов связи (находится за пределами зоны ответственности NGENIX) более не наблюдалось. Влияние полностью устранено, предоставление сервисов осуществляется в штатном режиме. Подробный отчёт может быть представлен по запросу.
Posted Jan 16, 2024 - 19:24 MSK
Monitoring
С 14:35 потери отсутствуют, влияние устранено. Продолжаем мониторинг ситуации и поиск корневой причины.
Posted Jan 16, 2024 - 14:42 MSK
Update
Наблюдаем снижение потерь на сети операторов-партнеров. Продолжаем поиск причин.
Posted Jan 16, 2024 - 14:33 MSK
Investigating
В данный момент наблюдаем ухудшение качества связи на стороне операторов. Оцениваем масштаб и возможность альтернативного решения.

Команда продолжает анализ текущей проблемы и дополнительно эскалирует в технические подразделения операторов с указанием влияния на сервисы.
Posted Jan 16, 2024 - 13:54 MSK