Сбои ЦОД во всем мире стали более продолжительными

Московский центр обработки данных DataSpace Компания DataSpace является коммерческим центром обработки данных в России, обеспечивающих гарантированный уровень услуг и высокий уровень надежности и безопасности для развертывания критически важной IT-инфраструктуры российских и международных компаний. Узнать подробнее »

Александр Панасенко

Главный-редактор Datacenterexpert.ru

Аналитика

Общее

Сервера

...

Время безотказной работы всегда является определяющим фактором для центров обработки данных. По мере того, как мир восстанавливается после пандемии COVID-19, надежная цифровая инфраструктура как никогда важна для поддержания экономики. Согласно новому исследованию The Uptime Institute, частота простоев центров обработки данных существенно не изменилась, но простои становятся более длительными и дорогостоящими.

1. Введение

2. Инциденты, приводящие к длительным простоям, становятся публичными

3. Рост инвестиций приводит к повышению уровня сложности сбоев

4. Выводы

Введение

Опрос The Uptime Institute проводится ежегодно, данные опроса примечательны тем, что выявляют тенденции сбоев в работе центров обработки данных, о которых может не сообщаться публично.

Онлайн-сервисы важны как никогда после пандемии COVID-19, которая повысила зависимость от удаленной работы и обучения, а это означает, что перебои в обслуживании ощущаются более болезненно и привлекают к себе широкое внимание.

Рисунок 1. Простои ЦОД в 2022 согласно данным Uptime Institute

Инциденты, приводящие к длительным простоям, становятся публичными

Проблема роста продолжительных простоев за последние два года приобрела серьезный размах. Некоторые из таких инцидентов стали публичными, например, глобальный сбой в Meta в октябре прошлого года, в результате которого Facebook, Instagram и WhatsApp отключились как минимум на пять часов. Позже Facebook заявил, что отказ в работе возник в результате ошибки конфигурации ключевой сетевой магистрали, отключив все центры обработки данных от Интернета и оставив DNS-серверы недоступными.

Другим примером является 73-часовое отключение в прошлом году в Roblox, которое обошлось компании ориентировочно в 25 миллионов долларов в виде потерянных заказов. В отчете об инциденте Roblox сообщил, что несколько программных сервисов конкурировали за ресурсы ЦОД, что усложняло диагностику ошибки в базе данных.

Инциденты с Facebook и Roblox показывают, как возросшая сложность онлайн-приложений может усложнить устранение неполадок автоматизированной инфраструктуры, что приводит к более длительным простоям.

Проблемы с сетевыми подключениями стали причиной крупного сбоя Amazon Web Services в декабре, когда возникли перебои в доступе к многим популярным веб-сервисам, инфраструктура которых работает в облаке AWS. Проблема была связана с несколькими сетевыми устройствами в кластере центра обработки данных AWS в Северной Вирджинии.

Рост инвестиций приводит к повышению уровня сложности сбоев

Все это происходит в период огромных инвестиций в цифровую инфраструктуру, включая огромный рост числа облачных платформ, рекордные слияния и поглощения и создание новых операционных платформ для центров обработки данных.

Эти инвестиции не приводят к повышению надежности, особенно в сложной среде, в которой новые архитектуры распределяют ИТ рабочие нагрузки по облаку, совместному размещению, периферийным и локальным объектам.

«Операторы цифровой инфраструктуры изо всех сил пытаются соответствовать высоким стандартам, которых ожидают клиенты, и требованиям соглашений об уровне обслуживания, несмотря на совершенствование технологий и значительные инвестиции отрасли в отказоустойчивость и предотвращение простоев», — сказал Энди Лоуренс, член-основатель и исполнительный директор Uptime Institute Intelligence.

«Отсутствие улучшения общих показателей простоев частично является результатом огромных недавних инвестиций в цифровую инфраструктуру и всех связанных с этим сложностей, с которыми сталкиваются операторы при переходе на гибридные распределенные архитектуры. Со временем как технологии, так и операционные методы будут улучшаться, но в настоящее время перебои в работе остаются главной проблемой для клиентов, инвесторов и регулирующих органов. Операторы смогут лучше всего справиться с этой задачей благодаря тщательному обучению персонала и операционным процедурам, чтобы смягчить человеческий фактор, стоящий за многими из этих сбоев», — сказал Лоуренс.

Выводы

Длительное время простоя становится все более распространенным явлением в публично освещаемых сбоях. Разрыв между началом крупного сбоя и полным восстановлением работы ЦОД значительно увеличился за последние пять лет: почти 30% этих отключений в 2021 году длились более 24 часов, что Uptime охарактеризовал как «тревожное увеличение» с 8% в 2017 году.

Время простоя также становится более дорогим: более 60% сбоев приводят к общим убыткам не менее 100 000 долларов США, что существенно выше, чем 39% в 2019 году. Доля простоев, стоимость которых превышает 1 миллион долларов США, увеличилась с 11% до 15% за тот же период.

Тенденция, которую мы впервые выявили в прошлом году, заключается в том, что проблемы с сетью стали единственной основной причиной всех инцидентов, связанных с простоями ИТ-служб, независимо от их серьезности, за последние три года. Uptime объясняет это «сложностями, связанными с растущим использованием облачных технологий, программно-определяемых архитектур и гибридных распределенных архитектур.

Наиболее значительные отключения обычно связаны с электрооборудованием, особенно с неисправностями источников бесперебойного питания (ИБП).

«На перебои в подаче электроэнергии приходится 43% отключений, которые классифицируются как значительные (приводящие к простоям и финансовым потерям)», — говорится в сообщении Uptime.

Выбор редакции:

Как решения по управлению ЦОД влияют на климат

Краткий обзор и перспективы развития рынка ЦОД

Если вы заметили ошибку, выделите необходимый текст и нажмите Ctrl+Enter, чтобы сообщить об этом редакции