Логотип

Amazon: сбой в работе AWS на этой неделе был вызван серьёзным нарушением работы DNS

Amazon: сбой в работе AWS на этой неделе был вызван серьёзным нарушением работы DNS

По данным Amazon, причиной масштабного сбоя в работе AWS (Amazon Web Services), из-за которого в понедельник не работали многие веб-сайты и онлайн-сервисы, стал серьёзный сбой в работе DNS.

Как сообщали на этой неделе, этот инцидент затронул критически важный центр обработки данных в Северной Вирджинии в регионе US-EAST-1, из-за чего пользователи по всему миру, включая США и Европу, не могли работать более 14 часов.

Согласно результатам расследования, опубликованным в четверг, состояние гонки привело к серьёзному сбою DNS в инфраструктуре Amazon DynamoDB, а именно в системе управления DNS, которая контролирует маршрутизацию пользовательских запросов на исправные серверы. Это привело к случайному удалению всех IP-адресов региональной конечной точки службы баз данных. «Основной причиной этой проблемы было скрытое состояние гонки в системе управления DNS DynamoDB, которое привело к появлению неверной пустой записи DNS для региональной конечной точки сервиса (dynamodb.us-east-1.amazonaws.com), которую не удалось исправить с помощью автоматизации», — сообщили в Amazon.

«Когда в 23:48 по тихоокеанскому времени возникла эта проблема, все системы, которым требовалось подключиться к сервису DynamoDB в регионе Северная Вирджиния (us-east-1) через общедоступную конечную точку, сразу же столкнулись с ошибками DNS и не смогли подключиться к DynamoDB. Это касалось как клиентского трафика, так и трафика от внутренних сервисов AWS, которые используют DynamoDB».

Читать  Как перезапустить службу bind9 на Linux/Debian/Ubuntu/CentOS/RHEL/Fedora и т.д.

Сбой в работе DynamoDB привёл к каскадному возникновению проблем в инфраструктуре AWS, в результате чего система DNS DynamoDB оказалась в несогласованном состоянии, которое не удалось исправить с помощью автоматического восстановления. Потребовалось вмешательство оператора.

С тех пор Amazon отключила ошибочную автоматизацию DNS по всему миру и приняла меры для предотвращения подобных проблем, в том числе добавила защитные проверки, улучшила механизмы регулирования и создала дополнительный набор тестов для выявления подобных ошибок в будущем.

«Мы приносим извинения за неудобства, которые это событие причинило нашим клиентам. Несмотря на то, что мы успешно обеспечиваем высочайший уровень доступности наших сервисов, мы понимаем, насколько важны наши сервисы для наших клиентов, их приложений и конечных пользователей, а также для их бизнеса», — добавили в Amazon.

«Мы знаем, что это событие оказало значительное влияние на многих наших клиентов. Мы сделаем всё возможное, чтобы извлечь уроки из этой ситуации и использовать их для дальнейшего повышения нашей доступности».

Редактор: AndreyEx

Рейтинг: 5 (1 голос)
Если статья понравилась, то поделитесь ей в социальных сетях:
0 0 голоса
Рейтинг статьи
Подписаться
Уведомить о
guest

0 комментариев
Старые
Новые Популярные
Межтекстовые Отзывы
Посмотреть все комментарии

Это может быть вам интересно


Загрузка...

Спасибо!

Теперь редакторы в курсе.

Прокрутить страницу до начала