По состоянию на конец третьего квартала 2024 года компания Backblaze отслеживала 292 647 жестких дисков (HDD) и твердотельных накопителей (SSD) на наших серверах облачного хранения данных, расположенных в центрах обработки данных по всему миру. Мы исключили из этого анализа 4 100 загрузочных дисков, состоящих из 3 344 SSD и 756 HDD. Таким образом, у нас осталось 288 547 жестких дисков под управлением для данного отчета. Мы рассмотрим годовую частоту отказов (AFR) за 3 квартал 2024 года и AFR за весь срок службы соответствующих моделей дисков. Попутно мы поделимся своими наблюдениями и соображениями по поводу представленных данных и, как всегда, будем рады, если вы сделаете то же самое в разделе комментариев в конце статьи.
Показатели отказов жестких дисков в 3 квартале 2024 года
Для квартального анализа за 3 квартал 2024 года мы исключили из рассмотрения следующие модели дисков, в которых на конец квартала не было как минимум 100 дисков, модели дисков, не набравшие 10 000 или более дней работы в течение квартала, а также отдельные диски, превысившие температурный режим, установленный производителем в течение всего срока службы. В общей сложности был удален 471 диск, в результате чего мы получили 288 076 дисков, сгруппированных в 29 моделей дисков для нашего анализа за 3 квартал 2024 года.
В таблице ниже приведены AFR и сопутствующие данные для этих моделей дисков. Таблица отсортирована по возрастанию размера диска, затем по возрастанию AFR в пределах размера диска.
Заметки и наблюдения о статистике драйвов Q3 2024
- Повышение AFR. Показатель AFR от квартала к кварталу продолжает расти, увеличившись с 1,71 % во втором квартале 2024 года до 1,89 % в третьем квартале 2024 года. Этот рост не может быть связан со стареющими дисками емкостью 4 ТБ, поскольку наша система миграции дисков CVT продолжает заменять эти диски. Как следствие, AFR для оставшихся дисков 4 ТБ составил 0,26 % в третьем квартале. Главным виновником этого является коллекция накопителей емкостью 8 ТБ, возраст которых в среднем превышает семь лет. В целом по группе AFR для дисков 8 ТБ вырос до 3,04 % в третьем квартале 2024 года по сравнению с 2,31 % во втором квартале. Команда CVT готовится начать переход на диски емкостью 8 ТБ в течение следующих нескольких месяцев.
- Еще один золотой старичок исчез. Вы могли заметить, что в таблице отсутствуют диски Seagate емкостью 4 ТБ (модель: ST4000DM000). Все хранилища Backblaze, содержащие эти диски, были перенесены, и, как следствие, осталось только два таких диска, чего недостаточно для составления квартальной таблицы. Подробнее об их гибели вы можете прочитать в нашем недавнем посте, посвященном Хэллоуину.
- Новый диск в городе. В третьем квартале появились диски Toshiba емкостью 20 ТБ (модель: MG10ACA20TE), которые заполнили три полных хранилища Backblaze по 1200 дисков в каждом. В течение последних нескольких месяцев наша команда по квалификации дисков испытывала эти модели 20 ТБ, и, выдержав испытание, они вошли в список моделей дисков, которые мы можем развернуть.
- Один ноль. Второй квартал подряд у модели дисков Seagate объемом 14 ТБ (модель: ST16000NM00J) нет отказов. Поскольку в эксплуатации находится всего 185 дисков, в будущем возможны большие отклонения, но на данный момент они неплохо себя чувствуют.
- Клуб девятилетних. Здесь нет дисков с 10 и более годами службы, но есть 39 дисков, которым девять лет или больше. Все они представляют собой диски HGST емкостью 4 ТБ (модель: HMS5C4040ALE640), размещенные в 31 различном модуле хранения, в пяти различных хранилищах Backblaze и двух различных центрах обработки данных. Доживет ли хоть один из этих дисков до 10 лет? Скорее всего, нет, учитывая, что четыре из пяти хранилищ уже начали миграцию CVT и к концу года уйдут в прошлое. И хотя пятое хранилище пока не планируется к миграции, это лишь вопрос времени, когда все используемые нами диски емкостью 4 ТБ исчезнут.
Реактивные и проактивные отказы приводов
В схеме набора данных Drive Stats есть поле под названием failure, в котором отображается либо 1, если диск вышел из строя, либо 0, если не вышел. На протяжении многих лет в различных постах мы заявляли, что для наших целей отказ диска является либо реактивным, либо проактивным. Более того, мы предположили, что вышедшие из строя диски делятся на эти две категории практически поровну. Мы хотели бы подкрепить это число 50/50 некоторыми данными, но для начала давайте определим две категории отказов дисков – реактивные и проактивные.
- Реактивный: Реактивный сбой – это когда возникает одно из следующих условий: диск выходит из строя и отказывается загружаться или вращаться, диск не отвечает на команды системы или диск не сохраняет работоспособность.
- Проактивный: Проактивный отказ – это, как правило, все, что не является реактивным отказом, и обычно это когда один или несколько индикаторов, таких как статистика SMART, проверки FSCK (файловой системы) и т. д., сигнализируют о том, что диск испытывает трудности и его отказ весьма вероятен. Как правило, на дисках, объявленных проактивными отказами, присутствует множество индикаторов.
Диск, который извлекается и заменяется как проактивный или реактивный отказ, считается отказом диска в Drive Stats, если мы не узнаем обратного. Например, диск испытывает ошибки связи и таймауты команд и запланирован для проактивной замены. В процессе замены техник центра обработки данных замечает, что диск, похоже, не полностью установлен на место. После аккуратной фиксации диска дальнейшее тестирование не выявило никаких проблем, и диск больше не считается неисправным.В этот момент набор данных Drive Stats обновляется соответствующим образом.
Как отмечалось выше, набор данных Drive Stats включает статус отказа (0 или 1), но не тип отказа (проактивный или реактивный). Это проект на будущее. Чтобы получить разбивку по различным типам отказов дисков, мы должны изучить систему регистрации заявок на техническое обслуживание, используемую в каждом центре обработки данных для регистрации любых действий по обслуживанию Storage Pods и связанного с ними оборудования. Исторически данные об отказах дисков были недоступны, но недавнее обновление программного обеспечения впервые позволило нам получить доступ к этим данным. Поэтому в духе Drive Stats мы хотели бы поделиться с вами нашими данными о типах отказов дисков.
Drive failure type stats
Q3 2024 станет отправной точкой для всех статистических данных о типах отказов дисков, которые мы будем публиковать в дальнейшем. Для единообразия мы будем использовать те же модели дисков, которые перечислены в ежеквартальном отчете Drive Stats, в данном случае за 3 квартал 2024 года. За этот период был зафиксирован 1 361 отказ дисков 29 моделей.
На самом деле мы используем данные о техническом обслуживании центров обработки данных уже несколько лет, поскольку каждый квартал мы проверяем вышедшие из строя диски, о которых сообщает система Drive Stats, с помощью записей о техническом обслуживании. Только проверенные вышедшие из строя диски используются в ежеквартальных отчетах Drive Stats и в данных, которые мы публикуем на нашей веб-странице Drive Stats.
Недавние обновления системы регистрации заявок на обслуживание центра обработки данных не только упростили процесс проверки отказов дисков, но и позволили легко объединить эти два источника. Это дает нам возможность просмотреть данные об отказах дисков по нескольким различным атрибутам, как показано в таблицах ниже. Начнем с количества вышедших из строя дисков в каждой категории и далее по убывающей. Так мы получим базовые данные.
Очевидно, что здесь можно проанализировать множество вещей, но на данный момент мы просто хотим установить базовый уровень. Далее мы соберем дополнительные данные, чтобы проверить, насколько последовательны и надежны наши данные с течением времени. Мы сообщим вам о результатах.
Узнайте больше о проактивных сбоях
Нас интересуют различные причины, по которым диск может быть отнесен к проактивным отказам. Сегодня мы записываем причины, по которым диск был отнесен к проактивному сбою, в тот момент, когда диск помечается для замены, но в настоящее время для одного диска допускается несколько причин. Это затрудняет определение основной причины. Конечно, основной причины может и не быть, поскольку часто проблема возникает из-за сочетания факторов. Такой анализ тоже может быть интересен. Независимо от точной причины, такие диски находятся в плохом состоянии, и замена деградировавших дисков для защиты хранящихся на них данных является нашей первоочередной задачей.
Показатели отказов жестких дисков за весь срок службы
По состоянию на конец третьего квартала 2024 года мы отслеживали 288 547 работоспособных жестких дисков. Для того чтобы модель диска рассматривалась для анализа срока службы, она должна была насчитывать 500 или более дисков на конец 3 квартала 2024 года и иметь более 100 000 накопленных дней работы в течение срока службы. После удаления моделей дисков, не соответствующих критериям срока службы, для анализа осталось 286 892 диска, сгруппированных в 25 моделей, как показано в таблице ниже.
Уменьшение срока службы AFR
Во втором квартале 2024 года показатель AFR за весь срок службы для перечисленных дисков составлял 1,47 %. В третьем квартале показатель AFR за весь срок службы снизился до 1,31 %, что является значительным снижением AFR за весь срок службы от одного квартала к другому. Это снижение также противоречит растущему ежеквартальному увеличению AFR за тот же период. На первый взгляд, в этом нет особого смысла, поскольку рост АФР от квартала к кварталу должен увеличивать АФР за всю жизнь. Есть два взаимосвязанных фактора, которые объясняют эти, казалось бы, противоречивые данные. Давайте посмотрим.
Начнем с таблицы ниже, в которой приведены различия между статистикой продолжительности жизни в Q2 и Q3.
Для создания набора данных для таблиц Lifetime AFR применяются два критерия: во-первых, в конце заданного квартала количество поездок модели привода должно быть больше 500, а во-вторых, количество дней езды должно быть больше 100 000. Первый критерий гарантирует, что модели приводов соответствуют представленным данным; то есть у нас есть значительное количество каждой из включенных моделей приводов. Второй стандарт гарантирует, что модели приводов, перечисленные в таблице Lifetime AFR, имеют достаточное количество точек данных; то есть у них достаточно дней езды, чтобы быть значимыми.
Как мы видим в таблице выше, в то время как количество дисков увеличилось со второго по третий квартал, количество дней дисков и количество отказов дисков значительно сократилось. Это объясняется сравнением моделей дисков, указанных в таблице срока службы второго квартала, с таблицей срока службы третьего квартала. Подведем итоги.
- Добавлено: в третьем квартале мы добавили модель диска Toshiba емкостью 20 ТБ (MG10ACA20TE). Во втором квартале в эксплуатации находилось только два таких диска.
- Удалено: В третьем квартале мы удалили модель диска Seagate емкостью 4 ТБ (ST4000DM000), поскольку на конец третьего квартала осталось только два диска, что значительно ниже критерия в 500 дисков.
Когда мы удалили диски Seagate емкостью 4 ТБ, мы также удалили 80 400 065 дней работы дисков и 5 789 отказов дисков из расчетов AFR за весь срок службы в третьем квартале. Если бы данные модели диска Seagate емкостью 4 ТБ (дни работы и отказы дисков) были включены в статистику срока службы за третий квартал, AFR составил бы 1,50 %.
Почему бы не включить данные Seagate объемом 4 ТБ? Другими словами, зачем вообще нужен критерий количества дисков? Разве мы не должны вычислять AFR за весь срок службы, используя все модели дисков, которые мы когда-либо использовали и которые накопили более 100 000 ездовых дней за всю жизнь? Если бы мы поступили таким образом, то в список моделей дисков, используемых для расчета АЧХ за весь срок службы, вошли бы модели дисков, которые мы перестали использовать много лет назад, и почти 100 различных моделей дисков. В результате большинство моделей дисков, используемых для расчета AFR за весь срок службы, окажутся устаревшими, а таблица AFR за весь срок службы будет содержать строки бесполезных данных, которые не имеют ни текущего, ни будущего значения. Короче говоря, количество дисков как один из критериев при расчете AFR за весь срок службы сохраняет актуальность и доступность таблицы.
Данные статистики жесткого диска
Прошло уже более 11 лет с тех пор, как мы начали записывать, хранить и сообщать статистику работы жестких и твердотельных дисков, которые мы используем для хранения данных в Backblaze. Мы просматриваем телеметрические данные дисков, включая их SMART-статистику и другие атрибуты, связанные со здоровьем. Мы не читаем и не изучаем хранящиеся данные клиентов.
На протяжении многих лет мы анализировали собранные нами данные и публиковали свои выводы и соображения, полученные в результате анализа. Для прозрачности мы также публикуем сами данные, известные как набор данных Drive Stats. Этот набор данных является открытым и может быть загружен с нашей веб-страницы Drive Stats.
Вы можете бесплатно загрузить и использовать набор данных Drive Stats в своих целях. Все, о чем мы просим, – это три вещи: 1) при использовании данных вы ссылаетесь на Backblaze как на источник; 2) вы признаете, что несете полную ответственность за использование данных; 3) вы можете продавать производные работы, основанные на этих данных, но 4) вы не можете продавать эти данные никому; они бесплатны.
Удачи, и дайте нам знать, если найдете что-нибудь интересное.
Для размещения комментариев необходимо авторизоваться