Bog BOS: hardware: SSD (Solid-State Drive)

Последнее изменение файла: 2025.05.20
Скопировано с www.bog.pp.ru: 2025.08.11

Bog BOS: hardware: SSD (Solid-State Drive)

SSD (Solid-State Drive) накопитель представляет собой NAND флэш память в корпусе форм фактора 2.5" (SFF) или M.2 с интерфейсом SATA, SAS или NVMe. Позволяет использование в качестве "почти обычного" жёсткого диска. Для ускорения операций может использоваться оперативная память под кеш и параллельный доступ к нескольким микросхемам флэш.

Предварительно необходимо ознакомиться с материалами о флэш.

Архитектура SSD

Адаптация к архитектуре SSD

Intel SSD X25

Samsung SSD 840 PRO

Серия Samsung PM893/PM897

Intel DC S3500 и другие

WD Blue 3D NAND

SATA Express, U.2, U.3, M.2 (NGFF), NVM Express, OCuLink

Серия Intel DC P3700 и другие

Серия Intel DC P4800X (Optane, 3D XPoint)

KIOXIA CM6-V

Intel (Solidigm) D7 P5620

Архитектура SSD

Контроллер SSD обеспечивает равномерное число стираний физических блоков независимо от шаблона записи для чего поддерживается таблица преобразования логических адресов в физические. Таблица преобразования также хранится в страницах флэша. Если есть свободные физические блоки, то контроллер записывает в них, а предыдущие физические блоки освобождаются. Скоростные SSD резервируют много места (от 7% до 25%) для гарантии наличия свободных физических блоков. Если свободных физических блоков нет (например, устройство тестировалось с помощью badblocks ;), то контроллеру приходится считывать старое содержимое блока в буфер, изменять содержимое буфера, стирать блок и записывать буфер обратно (write amplification). На неудачных SSD коэффициент "умножения записи" может достигать 20-40. Если запись приходится на границу двух блоков, количество операций удваивается. Для ускорения записи используется инвалидация прежнего содержимо страницы и алгоритмы сборки мусора (ищутся блоки, содержащие мало полезных данных, остатки полезных данных переписываются в свежий блок, а этот блок стирается, производится при возможности в фоновом режиме). Это также позволяет обеспечить равномерное использование блоков (количество стираний). Чтобы не задерживать контроллер при объёмной записи, "запачканные" блоки не стираются сразу, а только помечаются как неиспользуемые. Реальная очистка и "возвращение в строй" осуществляются при сборке мусора (выбираются блоки, содержащие наибольшее число неиспользуемых страниц, данные с них сливаются вместе, а блоки стираются и добавляются в список свободных). Эффект падения производительности при длительной нагрузке на запись. Со временем фрагментация усиливается и скорость случайной записи на SSD падает (X25-E 64GB - 25%, X25-M G1 160GB - 35%, X25-M G2 160GB - 0%, OCZ Summit 256GB - 70%, предыдущее поколение - в разы). Существуют контроллеры, размер логической страницы которых равен размеру блока стирания, а не записи - требуется меньшая производительность процессора контроллера и меньший размер таблиц, обеспечивается большая скорость последовательного чтения и записи, но получается очень маленькая скорость произвольной посекторной записи (80 KБ/сек!), подходят для цифровых фотоаппаратов.

Контроллер имитирует поведение обычного жёсткого диска (Flash Translation Layer G2, FTL, Flash Abstraction Layer), т.е. блочного устройства с независимыми секторами размером 512 байт, обеспечивая интерфейс ATA (SATA). Однако поведение SSD с их блоками записи в 4КБ и блоками стирания в 512КБ плохо согласуется с привычными алгоритмами работы с дисковыми устройствами. Например, "неправильное" выравнивание раздела замедляет скорость записи в 3 раза.

Команда ATA8 TRIM (SCSI ACS-2 PUNCH, SCSI DISCARD) позволяет ОС сообщить устройству о более неиспользуемых блоках данных, что позволяет контроллеру SSD значительно ускорить запись и перезапись данных, а также сборку мусора и избежать замедления записи при заполнении устройства. В SATA 3.0 и ранее команда TRIM не может быть поставлена в очередь, при выдаче команды контроллер диска останавливает приём команд, выполняет все команды из очереди, затем команду TRIM, возобновляет приём команд - не выдавайте TRIM часто! Исправлено в SATA 3.1. Аналогичные команды SCSI UNMAP (умеет вставать в очередь) и CF ERASE. Не помогает при изменении файла. Как быть с STP (SAS туннель) и RAID контроллерами? LSI MEGARAID не поддерживает. Поддержка появилась в виде заплаток для блочного уровня в ядре 2.6.28 (discard requests), идея оказалась неудачной (точнее говоря, команда TRIM в конечной версии стандарта не может быть поставлена в очередь) и всё переделывается, libata для 2.6.30 (нет?), EXT4 (2.6.33, "mount -o discard"), btrfs (2.6.33, "mount -o ssd,discard"). Версия hdparm 9.17 (июль 2009) имеет экспериментальную поддержку "ручного запуска" команды TRIM ("hdparm --please-destroy-my-drive --trim-sector-ranges адрес:1") и скрипт wiper.sh (ищет свободные блоки в файловой системе ext2/3/4 и посылает информацию о них в устройство командами TRIM), а также сообщается о наличии поддержки TRIM в устройстве

hdparm -I /dev/sda | grep TRIM
           *    Data Set Management TRIM supported (limit 4 blocks)
           *    Deterministic read ZEROs after TRIM

Узнать о поддержке discard (TRIM, PUNCH, UNMAP) блочными устройствами можно с помощью "lsblk -D".

Утилита fstrim (указывается активная точка монтирования) ищет неиспользуемые блоки и посылает устройству (через весь стек блочных устройств) сообщение об этом. Опции (размеры в KiB, MiB, GiB, TiB, PiB, KB, MB, GB, PB:

--minimum размер
--offset смещение
--length размер
--verbose

При создании файловых систем (mkfs.ext4 -E discard), swap (discard), логических томов (issue_discards в /etc/lvm/lvm.conf), dm-crypt (discard в /etc/crypttab), mdraid (CentOS 6, ядро 3.7) также обеспечивается возможность TRIM.

Использованный ресурс записи: "smartctl -l ssd /dev/sdX".

Адаптация к архитектуре SSD

Выравнивание начала каждого раздела на границу блока стирания: либо изобразить устройство с 56 секторами на дорожку и 224 головками("fdisk -H 224 -S 56" для 128KB блоков стирания), либо перейти к адресации по секторам (fdisk -u, но количество дорожек и головок всё равно изменить в режиме эксперта), либо отказаться от деления устройства на разделы. Чтобы первый раздел тоже был выровнен необходимо перейти в режим "эксперта". Для выравнивания необходимо точно знать размеры страницы записи и блока стирания.

Выравнивание содержимого LVM

pvcreate --metadatasize 250k /dev/раздел # выравнивание на границу 256KB
pvs /dev/раздел -o+pe_start # проверка

Выравнивание файловой системы (размер блока файловой системы - 4KB, размер блока стирания - 256KB)

mke2fs -t ext4 -E stripe-width=64 /dev/имя-логического-тома

Журнал автоматически выравнивается на границу 128KB, начиная с e2fsprogs 1.41.4.

Нужен ли журнал или его можно отключить? Например, отключение журнала уменьшает запись на 12% при сборке ядра (ext4).

Можно ли использовать noatime (chattr +A)? Например, noatime уменьшает запись на 12% при сборке ядра с использованием журнала и на 2% без использования журнала. relatime занимает промежуточное положение.

Отключить планировщик ввода/вывода (elevator=noop)?

В случае перманентной деградации устройство можно привести в чувство (сбросить загаженную таблицу отображения адресов) командой "ATA SECURITY ERASE" (только для "обычного" SATA контроллера!):

hdparm -I /dev/имя-устройства # убедиться, что устройство "Security: not frozen"
# если устройство "frozen", то попробовать передёрнуть кабель данных или кабель питания и данных
hdparm --user-master u --security-set-pass временный-пароль /dev/имя-устройства # установить пароль
# без очистки устройство будет заблокировано при следующем включении!
hdparm -I /dev/имя-устройства # убедиться, что пароль задействован
hdparm --user-master u --security-erase[-enhanced] временный-пароль /dev/имя-устройства # очистить устройство
hdparm -I /dev/имя-устройства # убедиться, что пароль удалён

Более простой (и менее эффективный) способ очистки для устройств с очисткой мусора - записать все блоки последовательно.

Желательно оставлять 20% свободного места (т.е. таких страниц, в которые никогда не было записи после очистки) для облегчения работы алгоритма сборки мусора (Intel X25-E имеет 25% резервных блоков).

SSD может писать во флеш и при чтении, например Kingstom SA400 (вариант Phison)

173 MaxAvgErase_Ct          ------   100   100   000    -    77 (Average 38)
233 Flash_Writes_GiB        -O--CK   100   100   000    -    9649
241 Lifetime_Writes_GiB     -O--CK   100   100   000    -    985
242 Lifetime_Reads_GiB      -O--CK   100   100   000    -    889
244 Average_Erase_Count     ------   100   100   000    -    38
245 Max_Erase_Count         ------   100   100   000    -    77
246 Total_Erase_Count       ------   100   100   000    -    599040
246 Total_Erase_Count       ------   100   100   000    -    599040

0x01  0x018  6      2067766243  ---  Logical Sectors Written
0x01  0x028  6      1864439361  ---  Logical Sectors Read

после badblocks -sv

173 MaxAvgErase_Ct          ------   100   100   000    -    86 (Average 39)
233 Flash_Writes_GiB        -O--CK   100   100   000    -    9983
241 Lifetime_Writes_GiB     -O--CK   100   100   000    -    985
242 Lifetime_Reads_GiB      -O--CK   100   100   000    -    2655
244 Average_Erase_Count     ------   100   100   000    -    39
245 Max_Erase_Count         ------   100   100   000    -    86
246 Total_Erase_Count       ------   100   100   000    -    620000
246 Total_Erase_Count       ------   100   100   000    -    620000

0x01  0x018  6      2067766243  ---  Logical Sectors Written
0x01  0x028  6      5569274469  ---  Logical Sectors Read

При этом устройство делает паузы при чтении на несколько секунд. Несильно загаженное устройство лечится:

s=0; while [ $s -lt 937703088 ] ; do echo $s:8; s=$[$s+8]; done | hdparm  --trim-sector-ranges-stdin --please-destroy-my-drive /dev/sdb
badblocks -b 4096 -c 1024 -t 0  -svw /dev/sdb

Intel SSD X25

Intel X25-E, SSD, 2.5", 5V, SATA-II (SATA 2.6 с NCQ и SMART, ATA/ATAPI-7), 50 нм, SLC - SSDSA2SH064G1GC. Объём (в десятичных гигабайтах, немножко занимается под обслуживание) - 32 или 64 GB. Известен также как Kingston SNE125-S2/64GB. Обещана возможность записать 1 или 2 ПБ. На устройстве резервируется 25% блоков.

bonnie++ 1.03       ------Sequential Output------ --Sequential Input- --Random-
                    -Per Chr- --Block-- -Rewrite- -Per Chr- --Block-- --Seeks--
Machine        Size K/sec %CP K/sec %CP K/sec %CP K/sec %CP K/sec %CP  /sec %CP
HPDL365G5     59500M           125907  13  47616   6           126507  10  4571  10 # контроллер P400i умеет только SATA-1
HPDL365G5     59500M            63221   6  42727   5           125256  10  5283  12 # отключено кеширование в контроллере
HPDL365G5     59500M           131417  13  55793   7           127701   9  5190  12 # включено кеширование SSD
HPDL365G5     59500M           133391  13  51901   6           127396   9  4057   9 # включено кеширование SSD и контроллера
Intel SR2625  59500M           304880  29  89721   7           288803  15 +++++ +++ # 48GB памяти
Intel SR2625 100000M           574696  75 208508  27           534533  29 +++++ +++ # RAID-0 из 4 устройств, 48GB памяти

numademo 50g memset # при наличии 48GB памяти, swap на Intel X25-E
memory with no policy memset              Avg 75.83 MB/s
numademo 34g memset # при наличии 32GB памяти, swap на RAID-1 из SAS 10000 rpm
memory with no policy memset              Avg 4.09 MB/s

Intel X25-M (второе поколение, G2), SSD, 2.5", 5V, SATA-II (SATA 2.6 с NCQ и SMART, ATA/ATAPI-7), MLC, 34 нм, SSDSA2MH080G2xx (серебристые). Объём (в десятичных гигабайтах, немножко занимается под обслуживание) - 80GB, 160GB (10 каналов, 32MB SRAM) и 320GB (всё ещё ожидается). Кеш данных - SRAM 256KB. Первая прошивка оказалась с дефектом (блокировка при попытке защиты паролем). Вторая версия прошивки (HA02, с реализацией команды TRIM) - тоже. Известен также как Kingston SNM125-S2B/80GB. Обещана возможность записывать 20Gb в день в течении 5 лет (в реальности, зависит от свободного места: при полностью заполненном диске, можно суммарно записать 14,5 ТБ (29 TБ) данных для 80 ГБ (160 ГБ) модели; при наличии 10% свободного места на диске, можно суммарно записать 34 ТБ (68 TБ), а при 20% уже можно суммарно записать 52 ТБ (104 TБ) данных). На устройстве аппаратно резервируется 6.9% блоков. После длительного периода (1 час) записи на максимальной нагрузке скорость падает до 10MB в секунду.

bonnie++ 1.03       ------Sequential Output------ --Sequential Input- --Random-
                    -Per Chr- --Block-- -Rewrite- -Per Chr- --Block-- --Seeks--
Machine        Size K/sec %CP K/sec %CP K/sec %CP K/sec %CP K/sec %CP  /sec %CP
HPDL365G5     74500M            58453  12  43944   6           135129   9  4476   9 # включено кеширование SSD и контроллера
Intel SR2625  74500M            67055   8  55261   6           287102  15 +++++ +++
Intel SR2625 100000M           309171  39 174966  15           453858  16 +++++ +++ # RAID-0 из 6 устройств
Intel SR2625 100000M           349611  50 196895  26           654527  44 15193  40
  pvcreate -M2 --dataalignment 1024 /dev/sd{abcd}
  lvcreate --extents 100%FREE --stripes 4 --name globaltemp --stripesize 1024
  mkfs.ext4 -O ^has_journal -v -m 0 -b 4096 -E stride=256,stripe-width=1024
  mount -o nodiratime,data=writeback,nobh,nobarrier,stripe=1024,delalloc,commit=60,\
           max_batch_time=30000,min_batch_time=1000
Intel SR2625 100000M            56432  27  40092   6            95776   8  6252  16 # по NFS

Обновление прошивки 2.6 от 30 ноября 2009 (2CV102HD для M и 045C8850 для E, в виде загрузочного ISO) действует только для "обычных" SATA контроллеров в режиме AHCI или Legacy (предпочтительно).

Intel утверждает, что коэффициент "умножения записи" на типичной нагрузке - не более 1.1 (для SSD предыдущего поколения - 10), а разброс числа стираний между блоками не превышает 10% и лишь 4% блоков имеют большее число стираний (для SSD предыдущего поколения - 5). Intel SSD Toolbox 1.2.0 для Microsoft Windows XP/Vista/7 включает Optimizer (выдаёт TRIM для блоков удалённых файлов), средства доступа к SMART:

B8/184 (только для G2) - число ошибок LBA(?) в процентах
E1/225 - количество записанных групп по 64K секторов (размер?) с точки зрения хоста
E8/232 - доступное резервное пространство в процентах от первоначального
E9/233 - индикатор доступного числа перезаписей в процентах от первоначального (от 100 до 1)

Samsung SSD 840 PRO

Samsung SSD 840 PRO 512GB (MZ-7PD512BW, 64x64Gb), обзор, SATA 6Gbps, формат 2.5" (SFF), толщина 7мм, прошивка DXM05B0Q (в DXM02B0Q была ошибка безопасного стирания - устройство умирало совсем), MLC 21нм, 8 каналов Toggle DDR 2.0 (400 Mbps), потребление - от 0.3 Вт до 3.5 Вт от 5 В, поддержка TRIM (использовать обязательно, иначе скорость падает до 30 МБ/сек), буфер 512 МБ LPDDR2-1066 (защиты от потери питания нет), запас всего 7% (имеется ПО для настройки). Около 10000 IOPS в однопоточном чтении (75000 IOPS при глубине 32), 30000 IOPS в однопоточной записи (90000 IOPS при глубине 32). В эксперименте выдержал запись 600 TB. Тестирование под серверной нагрузкой (скорость случайной записи упала до 8000 IOPS через 6 часов).

Объяснение показателей SMART:

5 - Reallocated Sector Count
9 - Power-On Hours
12 - Power_Cycle_Count
177 - Wear_Leveling_Count (количество циклов стирания и программирования)
179 - Used_Rsvd_Blk_Cnt_Total (соответствует Reallocated Sector Count)
181 - Program_Fail_Cnt_Total
182 - Erase_Fail_Count_Total
183 - Runtime_Bad_Block (сумма 181 и 182 и ошибок чтения)
187 - Reported_Uncorrect (не удалось восстановить с помощью ECC)
190 - Airflow_Temperature_Cel (температура воздуха над NAND)
195 - Hardware_ECC_Recovered (процент ошибок, восстановимых с помощью ECC)
199 - UDMA_CRC_Error_Count
235 - Power Recovery Count (восстановлений данных и карт после неожиданного отключения питания)
241 - Total_LBAs_Written (в блоках по 512 байт)

Обнаружились проблемы при подключении к Intel C600 SCU (SAS1) - под тяжёлой нагрузкой (моделируется "badblocks -b 4096 -c 1024", несколько дней) у диска сносит крышу (начинает рапортовать о своём объёме в 600 PB и т.п.), приходится перезагружаться (SSD Intel DC S3500 проходит без проблем). Подключение через LSI MegaRAID 9266-8i выявило отсутствие TRIM у оного и невозможность работы без TRIM.

Серия Samsung PM893/PM897

Серия Samsung PM893 поставляется в формате SFF (2.5") с интерфейсом SATA-3.3 6Gbps, толщина 7мм, ресурс записи - 1.3 DWPD, Samsung V6 (128 Layer) TLC V-NAND, защита от потери данных при отключении питания с помощью конденсатора (PLP), потребление - до 3.2 Вт, имеются версии на 240GB, 480GB, 960GB, 1.92TB, 3.84TB и 7.68TB, обещанные характеристики (методика неизвестна): последовательное чтение/запись - до 530/560 MB/s, случайное чтение/запись - до 98k/31k IOPS.

Серия Samsung PM897 поставляется в формате SFF (2.5") с интерфейсом SATA-3.3 6Gbps, толщина 7мм, прошивка JXTE004Q, ресурс записи - 3 DWPD, Samsung V6 (128 Layer) TLC V-NAND, защита от потери данных при отключении питания с помощью конденсатора (PLP), потребление - до 3.4 Вт, имеются версии на 480GB, 960GB (MZ7L3960HBLT), 1.92TB (MZ7L31T9HBNA-00A07) и 3.84TB, обещанные характеристики (методика неизвестна): последовательное чтение/запись - до 470/550 MB/s, случайное чтение/запись - до 97k/32k IOPS.

Samsung стесняется выпуска этих устройств (на сайте только поиском можно найти двустраничный brief) и обзоров не обнаружено. (кстати, на сайте Samsung поиском находится двустраничный brief).

Объяснение показателей SMART:

5 - Reallocated Sector Count
9 - Power-On Hours
12 - Power_Cycle_Count
177 - Wear_Leveling_Count (количество циклов стирания и программирования)
179 - Used_Rsvd_Blk_Cnt_Total (соответствует Reallocated Sector Count)
180 - Unused_Rsvd_Blk_Cnt_Tot (неиспользованных резервных блоков - 2531)
181 - Program_Fail_Cnt_Total
182 - Erase_Fail_Count_Total
183 - Runtime_Bad_Block (сумма 181 и 182 и ошибок чтения)
184 - End-to-End_Error
187 - Reported_Uncorrect (не удалось восстановить с помощью ECC)
190 - Airflow_Temperature_Cel (температура воздуха над NAND)
194 - Temperature_Celsius
195 - Hardware_ECC_Recovered (процент ошибок, восстановимых с помощью ECC)
197 - Current_Pending_Sector
199 - UDMA_CRC_Error_Count
202 - SSD Mode Status
235 - Power Recovery Count (восстановлений данных и карт после неожиданного отключения питания)
241 - Total_LBAs_Written (в блоках по 512 байт)
242 - Total_LBAs_Read
243 - SATA Downshift Control
244 - Thermal Throttle Status
245 - Timed Workload Media Wear
246 - Timed Workload Host Read / Write Ratio
247 - Timed Workload Timer
251 - NAND Writes

Intel DC S3500 и другие

Intel DC S3500 800 GB (SSDSC2BB800G401), типоразмер SFF 2,5", толщина 7.5 мм, SATA-3, MLC, ресурс записи не менее 140 TB по стандарту JESD218 (изменено на 450 ТБ? 0.3 записи всего объёма в день), поддерживает команду TRIM, защита от потери данных при отключении питания с помощью конденсатора, с самотестированием и мониторингом SMART, возможность питания только от шины 12 В, устойчивость производительности - 90%, полная задержка записи - типичная 65 мкс, не более 2 мс для 99.9% при QD=1, не более 10мс для 99.9% при QD=32, 5 Вт, гарантия 5 лет. Имеются версии на 80, 120, 160, 240, 300, 480, 600 и 800 GB (впоследствии расширены моделями на 1200GB и 1600GB с другим контроллером), а также в формате 1.8" глубиной 5 мм (маленькие модели - медленные). При разработке Intel сделала упор на обеспечение стабильности производительности при непрерывной большой нагрузке. Содержит 8-канальный контроллер PC29AS21CA0 и 1ГБ DDR3-1600 SDRAM (хранит линейную таблицу трансляции адресов), ECC?. Модель на 240ГБ содержит 52ГБ резерва, 480ГБ - 48ГБ резерва. Без TRIM работает плохо. Стабильность производительности позволяет собирать их в RAID.

Независимое тестирование по методике SNIA Solid State Storage Performance Test Specification (SSS PTS) и JESD218A (JESD219A): 75000 IOPS при чтении блоками 4К очередь 16, 11000 IOPS при записи блоками 4К очередь 2 (резервирование места не помогает, средняя задержка - 2.8 мс при очереди 32).

Был взят на замену несправившемуся Samsung SSD 840 PRO (временные файлы рассчётной фермы). При увеличении (изменении характера?) нагрузки появились проблемы с NFS. При этом индикатор истираемости предсказывает смерть SSD менее чем за год (гарантируется 450ТБ записи). Не надо загружать очередь выше 32 - это всё же SATA!

Объяснение показателей SMART:

5 - Reallocated_Sector_Ct
9 - Power_On_Hours
12 - Power_Cycle_Count
170 - Unknown_Attribute
171 - Unknown_Attribute
172 - Unknown_Attribute
174 - Unknown_Attribute
175 - Program_Fail_Count_Chip
183 - Runtime_Bad_Block
184 - End-to-End_Error
187 - Reported_Uncorrect (не удалось восстановить с помощью ECC)
190 - Airflow_Temperature_Cel
192 - Power-Off_Retract_Count
194 - Temperature_Celsius
197 - Current_Pending_Sector
199 - UDMA_CRC_Error_Count
225 - Load_Cycle_Count
226 - Load-in_Time
227 - Torq-amp_Count
228 - Power-off_Retract_Count
232 - Available_Reservd_Space
233 - Media_Wearout_Indicator
234 - Unknown_Attribute
241 - Total_LBAs_Written (записанных хостов блоков размером 32 MiB)
242 - Total_LBAs_Read

Intel DC S3510 - замена контроллера на всей линейке (15200 IOPS при записи блоками 4К), переход на 16nm 128Gbit MLC NAND.

Intel DC S3520 (от 150ГБ до 1600ГБ) - переход на 3D MLC 16nm (?), чуть меньше линейная скорость, 17000 IOPS при записи блоками 4К. Ресурс записи - 1 запись всего объёма в день, полная задержка записи - типичная 42 мкс.

Серия Intel DC S3700 (от 100 до 800 ГБ, например, SSDSC2BA800G301) использует флеш MLC-HET (High Endurance Technology) с большим размером ячеек и более длительным циклом стирания, 200ГБ резерва для модели 800ГБ, что позволило увеличить лимит истирания до 14.6 ПБ и скорость записи до 35000 IOPS при записи блоками 4К очередь 2, средняя задержка - 1 мс при очереди 32.

Серия Intel DC S3610 (от 200 до 1600 ГБ, например, SSDSC2BX800G401) использует флеш MLC-HET (High Endurance Technology) обещает 84000 IOPS при чтении блоками 4К и 27000 IOPS при записи блоками 4К очередь 32, 3 перезаписи в день (DWPD) - 10.7 ПБ (JESD218), типоразмер SFF 2,5", толщина 7.5 мм, SATA-3, MLC, UBER - 1 сектор на 10^17 бит, поддерживает команду TRIM, защита от потери данных при отключении питания с помощью конденсатора, с самотестированием и мониторингом SMART, возможность питания только от шины 5В или 5В и 12В, устойчивость производительности - 90%, полная задержка записи - типичная 65 мкс, не более 0.5 мс для 99.9% при QD=1, не более 10мс для 99.9% при QD=32, время хранения данных без питания - 3 месяца при 40°C 12 Вт, гарантия 5 лет, температурный интервал: 0 - 70°C.

Серия Intel DC S3710 (от 200 до 1200 ГБ, например, SSDSC2BA800G401) использует флеш MLC-HET (High Endurance Technology) обещает 85000 IOPS при чтении блоками 4К и 45000 IOPS при записи блоками 4К очередь 32, 10 перезаписей в день (DWPD) - 24 ПТ (JESD218, JESD219), типоразмер SFF 2,5", толщина 7.5 мм, SATA-3, MLC, UBER - 1 сектор на 10^17 бит, поддерживает команду TRIM, защита от потери данных при отключении питания с помощью конденсатора, с самотестированием и мониторингом SMART, возможность питания только от шины 5В или 5В и 12В, устойчивость производительности - 90%, полная задержка записи - типичная 65 мкс, не более 0.2 мс для 99.9% при QD=1, не более 5мс для 99.9% при QD=32, время хранения данных без питания - 3 месяца при 40°C 12 Вт, гарантия 5 лет, температурный интервал: 0 - 70°C.

Серия Intel DC S3100: TLC, ресурс - 580 TBW (для модули в 1 ТБ), 3900 IOPS при записи блоками 4К очередь 32, скорость линейной записи - 114 МБ/сек (явно прибедняются или нет?!).

Серия Intel DC S4500: 3D TLC второго поколения, 30000 IOPS при записи блоками 4К (21000 для модели 480ГБ), SFF. От 240 ГБ до 7680 ГБ (вес и прочее модели 7680 ГБ подлежит определению). Задержка произвольной записи - 52 мкс (стабильность 90% для модели 480ГБ, прочих от 72% до 90%). Защита от отключения питания есть. Последовательная запись - 330 МБ/сек для модели 480 ГБ. Ресурс записи - 1 запись всего объёма в день по JEDEC при 5-летнем сроке (900 TB для модели 480ГБ). Качество обслуживания записи 99.9% при глубине очереди 32 - 7.46 мс для модели 480ГБ, при глубине 1 - 0.36 мс.

Серия Intel D3-S4510, 3D TLC, SFF или M.2. 36000 IOPS при записи блоками 4К для модели 960ГБ. От 240 ГБ до 3840 ГБ (например, SSDSC2KB960G801). Последовательная запись - 510 МБ/сек для модели 480 ГБ и 960 ГБ. Задержка произвольной записи - 37 мкс. Защита от отключения питания есть. Ресурс записи - 2 записи всего объёма в день по JEDEC при 5-летнем сроке (3.4PB ТБ для модели 960ГБ).

Серия Intel DC S4600: 3D TLC второго поколения, 60000 IOPS при записи блоками 4К для модели 480 ГБ (65000 для модели 960ГБ), SFF. От 240 ГБ до 1920 ГБ (например, SSDSC2KG480G701). Задержка произвольной записи - 37 мкс (стабильность 92% для модели 480ГБ, прочих от 82% до 92%). Защита от отключения питания есть. Последовательная запись - 480 МБ/сек для модели 480 ГБ (490 МБ/сек для модели 960 ГБ). Ресурс записи - 3 записи всего объёма в день по JEDEC при 5-летнем сроке (2950 ТБ для модели 480ГБ). Качество обслуживания записи 99.9% при глубине очереди 32 - 1.17 мс для модели 480ГБ, при глубине 1 - 0.2 мс.

Серия Intel D3-S4610: 3D TLC 64 слоя, SFF. 44500 IOPS при записи блоками 4К для модели 480 ГБ (51000 для модели 960ГБ), при этом тесты показывают увеличение скорости записи относительно S4600 (видимо в пределах ёмкости кеширования, плохой тест). От 240 ГБ до 3840 ГБ (например, SSDSC2KG960G801). Задержка произвольной записи - 37 мкс. Защита от отключения питания есть. Потребление уменьшено относительно S4600. Последовательная запись - 510 МБ/сек для модели 480 ГБ и 960 ГБ. Ресурс записи - 3 записи всего объёма в день по JEDEC при 5-летнем сроке (2950 ТБ для модели 480ГБ).

Серия Intel D3-S4620:

Обзоры

Прощай Intel! Здравствуй Solidigm (подразделение Intel куплено SK Hynix)!

WD Blue 3D NAND

WD Blue 3D NAND не отличается ничем выдающимся, кроме того что мы накупили их в изрядном количестве. Через некоторое время эксплуатации обнаружилось замедление чтения старых файлов: пишет новые файлы со скоростью 400 MB/s, читает их обратно со скоростью 400 MB/s, старые файлы (и badblocks!) читает со скоростью 5 MB/s. Способы лечения:

многократное (больше 180) поточное вычитывание (начинается со скорости 5 MB/s)
перезапись на ходу (pvmove [-n логический-том] физический_том:начало:конец -v --alloc anywhere -i 10 физический-том)
многократное (больше 10) badblocks -n (требует аккуратности, не надо сюда писать во время ремонта)
резервное копирование; многократное (больше 5) badblocks -w; восстановление

SATA Express, U.2, U.3, M.2 (NGFF), NVM Express, OCuLink

Mini-PCI - форм-фактор для подключения маленьких плат с интерфейсом PCI.

Mini-PCIe - форм-фактор для подключения маленьких плат с интерфейсом PCI Express и USB 2.0. Было выпущено небольшое количество моделей SSD (AHCI или нестандартный протокол, не NVMe!).

mSATA - форм-фактор для подключения маленьких плат с интерфейсом SATA 3.0 и питанием. Разъём физически совместим с Mini-PCIe (но не работает).

SATA Express (Serial ATA Express, SATAe, SATA 3.2, 2013) - физический интерфейс, совмещающий SATA и PCI Express. Разъём физически совместим с кабелем SATA 3.0 (2 порта), но дополнительно имеет 2 линии PCIe 2.0 (1ГБ/сек) или PCIe 3.0, питания нет, толщина 7 мм. Реализован в Intel Z97/H97 (2014) и C610.

На логическом уровне SATAe совместим с AHCI (через SATA порт), AHCI (через PCIe, AHCI контроллер на устройстве) и NVM Express (через PCIe, NVMe контроллер на устройстве).

M.2 (NGFF, Next Generation Form Factor) - миниатюрная реализация интерфейсов, предусмотренных SATA Express (2 или 4 линии PCI Express 3.0 и 1 порт SATA 3.0), дополненных USB 2.0 или 3.0, I2C, PCM, SDIO, DP, UART, Future Memory Interface и питание (?) для устройств хранения (и не только) в виде внутренней платы. Всего 67 контактов (ножевой разъём); до 60 циклов вставки; ширина устройства - 12, 16, 22 и 30 мм (25 мм для PCIe 5.0); длина - 16, 26, 30, 38, 42, 60, 80 и 110 мм. Типичные устройства имеют ширину 22 мм. Детали толщиной до 1.5 мм монтируются на 1 (3 варианта) или 2 стороны (5 вариантов). Изготовитель может безнаказанно опустить реализацию интерфейса в хосте или устройстве (задаётся прорезями-ключами, возможно несколькими: M-Key - 4 линии PCIe, B-Key - SATA, A-Key, E-Key; наличие ключа не гарантирует наличия поддержки интерфейса, например, M-Key может иметь только 2 линии PCIe). Для совместимости необходимо учитывать все параметры.

Разъём SFF-8639 (aka U.2, 68 контактов, поддерживает горячую замену) обеспечивает в сумме до 6 высокоскоростных линий (1 SATA, 2 SAS, 4 PCIe 3.0 - 4ГБ/сек, линии синхронизации и сброса PCIe, SMBus) для сочетания с SFF-8482 (SAS 6Gbps), SFF-8630 (SAS Multilink, только механический стандарт, интерфейс не расписан, только расположение групп CS1, CS2, CS3 и нумерация контактов), SFF-8680 (SAS 12Gbps, интерфейс не расписан, только расположение групп CS1, CS2 и CS3). Сам SFF-8639 стандартизирует механическую часть и нумерацию контактов - E1-E25 для PCIe (а где официальное описание интерфейсов? EIA-966? Enterprise SSD Form Factor (SSD_Form_Factor_Version1_a.pdf)?). Имеются версии SFF-8637 (12 Gbps на линию) и SFF-8638 (24 Gbps на линию). Линия синхронизации обязательна (в SATAe опциональна). Форм-фактор 2.5" - 15x70x100.45 мм, до 25 Вт.

Модификация SFF-TA-1001 для разъёма SFF-8639 (aka U.3, 68 контактов) - физически совпадает с U.2, но линии PCIe передвинуты для совмещения с линиями SAS. Варианты подключения: NVMe 1x4 и 2x2 и 1x2 и 1x1, SATA, SAS x1 и x2 и 4. Облегчает создание универсальных (SAS/SATA/NVMe) объединительных плат - единый кабель для сигналов SAS и NVMe (PCIe), совмещённые линии для SAS и PCIe в разъёме (кстати, импеданс PCIe - 85 Ом, а SAS - 100 Ом). Хост-адаптер определяет тип устройства с помощью UBM (Universal Backplane Management, SFF-TA-1005) через 3 ранее не использовавшиеся линии SFF-8639 (P10 PRSNT#, P4 IfDet#, E6 IfDet2#). Для опознания количества используемых портов SAS и PCIe (1, 2 или 4) используются 2 ранее не использовавшиеся линии SFF-8639 (S15, E25). UBM также позволяет идентифицировать слот устройства (например, для замены) и демонстрировать состояние устройства, управлять питанием, осуществлять сброс устройства, управлять тактовым сигналом (clock, внешний или встроенный в сигнал). Накопитель U.3 можно подключить к объединительной плате U.2, но накопитель U.2 нельзя подключить к объединительной плате U.3.

OCuLink (SFF-8611, PCIe 3.0 x4, 42 контакта, SGPIO?) - разъём для прямого подключения кабелем 1 SSD. Имеются варианты прямого и углового соединения. Имеется вариант для x8 (бывает ли в природе?).

Первоначально M.2 позволяли подключать SSD по протоколу AHCI через PCIe (современные SATA SSD не имеют реализации протокола AHCI).

NVM Express (NVMe, Non-Volatile Memory Host Controller Interface Specification) - логический интерфейс доступа к SSD (1.0 в 2011, 1.1 в 2012). В отличие от AHCI c её 1 очередью в 32 команды NVMe может иметь до 64K очередей в 64К команд, вдвое меньшие задержки (не нужно 4 чтения регистров по 2000 циклов каждое), 2048 MSI-X прерываний (параллельная обработка), не нужна блокировка синхронизации для выдачи команды. Для достижения 1 миллиона IOPS требуется 10 ядер в режиме AHCI и 3.5 ядра Intel в режиме NVMe (3.3 GHz, RHEL 6). NVMe SSD реализуются в формате PCIe карт расширения или SFF дисков с разъёмом SFF-8639 (4 линии PCIe) или M.2 или SATA Express. Обновление и переключение прошивки без остановки работы (несколько слотов).

NVMe 1.4: журнал событий (Persistent Event Log), многомаршрутный доступ к пространству имён (Asymmetric Namespace Access), использование памяти хоста под буфер (Host Memory Buffer).

NVMe 2.0: стандарт разбит на разделы с базовой спецификацей NVMe, спецификацией наборов команд - NVM, ZNS (Zone Name Space) и KV (Key Value) - спецификации транспорта (PCIe, Fibre Channel, RDMA и TCP) и спецификацию интерфейса управления. Теперь НЖМД тоже могут иметь интерфейс NVMe.

Драйвера имеются для MS Windows 7, RHEL 6.5, Linux ядра 3.3 (nvme, multiqueue в 3.13), Oracle Solaris 11.2, UEFI 2.3.1. Модуль nvme имеет параметры:

admin_timeout секунд
io_timeout секунд
shutdown_timeout секунд
nvme_major целое
nvme_char_major целое
use_threaded_interrupts ?

Базовые понятия:

контроллер - устройство NVMe может иметь несколько контроллеров, что позволяет подключить его к нескольким хостам
пространство имён (ns, namespace) - раздел SSD фиксированного или виртуального размера (thin), представляется в Linux как блочное устройство
устройство управления - в Linux символьное устройство /dev/nvmeNNN, позволяющее управлять блочными устройствами пространств имён

Пакет nvme-cli (/usr/share/doc/nvme-cli-1.8.1, отдельная документация для man по каждой команде) содержит утилиту nvme ("nvme команда устройство параметры") с командами

help [команда]
list -o {normal|json} # выводит список обнаруженных NVMe устройств: имя устройства, серийный номер, модель, пространство имён, размер пространства имён и сколько используется, формат блока, версия прошивки
list-ctrl {блочное-устройство | устройство управления} [--cntid=идентификатор-контроллера] [--namespace-id=идентификатор] # выводит список идентификаторов контроллеров
list-subsys [-o {normal|json}] [блочное-устройство] # выводит список активных подсистем: имя подсистемы, NQN (идентификатор изготовителя, модель, серийный номер) и подключения (имя, транспорт (pcie), адрес (PCI), состояние (live))
id-ctrl {блочное-устройство | устройство управления} [--vendor-specific] [--raw-binary] [--human-readable] # выводит много информации об устройстве, из понятного:
- vid: идентификатор изготовтеля
- mn: модель
- sn: серийный номер
- fr: версия прошивки
- cmic: тип подключения (PCI, множественность контроллеров, множественность портов)
- mdts: 13 # 2^13*4k = 32768k = 32 MiB максимальный размер передаваемых данных
- ctratt: поддерживаемые наборы команд (Endurance Groups, NVM Sets Supported)
- oacs: поддерживаемые наборы команд (NVMe-MI Send and Receive, Self-test, управление пространствами имён, загрузка прошивки, форматирование, Security Send and Receive)
- frmw: работа с прошивкой (количество слотов, активация без сброса)
- lpa: телеметрия, расширенный журнал, журнал эффектов, SMART для пространств имён
- apsta: автономное питание?
- wctemp, cctemp: температура (wctemp, cctemp)
- mntmt, mxtmt: минимальная и максимальная температура?
- sanicap: режимы зачистки (перезапись, стирание блоков, безопасное стирание)
- nn: 64 # количество пространств имён
- oncs: поддерживаемые наборы команд (виртуализация, резервирование, запись нулей, управление наборами данных, запись немыслимого, сравнение)
- fuses: поддержка слитых сравнения и записи
- fna: режимы безопасной очистки
- vwc: наличие теряемого кеша записи
- nwpc: режимы защиты от записи
- sgls: режимы списков Scatter-Gather
- subnqn: NQN подсистемы (NQN изготовителя, модель, серийный номер)
- ps 0: описание режима потребления 0 (максимальное потребление, задержки enlat и exlat (в единицах?), rrtи rrl (?), rwt и rwl (?), потребление в покое, потребление в активном состоянии
- ps 1: ...
- ps ...
id-ns {блочное-устройство | устройство-управления [--namespace-id=номер-пространства} [--force] [--vendor-specific] [--raw-binary] [--human-readable] # выводит информацию о пространстве имён
- nsze: номинальный размер
- ncap: выделенный размер
- nuse: используемый размер
- nsfeat: свойства (выделение по запросу (thin))
- flbas: текущий формат LBA
- dpc и dps: форматы PI (Protection Information)
- nmic: multipath
- rescap: режимы эксклюзивного доступа
- fpi: индикатор прогресса форматирования
- dlfeat: особенности реализации Deallocate
- nvmcap: общий размер
- nguid:
- eui64:
- LBA Format 0: размер метаданных (PI), размер блока данных, производительность
{list-ns устройство [--all] | create-ns|delete-ns|attach-ns|detach-ns|get-ns-id|ns-descs|ns-rescan|changed-ns-list-log} # работа с пространствами имён
{resv-acquire | resv-register | resv-release | resv-report} # резервирование пространства имён
id-nvmset устройство [-i идентификатор] # вывести список наборов NVM (random_4k_read_typical? статистика?)
get-log устройство --log-len=размер --log-id=номер-журнала [--aen=асинхронное-извещение] [--namespace-id=номер-пространства] [--lpo=смещение] [--lsp=поле] [--rae] # вывести один из журналов в нерасшифрованном виде:
- страница 1 - ошибки
- странице 2 - SMART
- страница 3 - прошивка
- страница 0xC0 - каталог
- страница 0xC5 - температура
- страница 0xCA - дополнительный SMART
- страница 0xDD - маркетинговое имя (Intel)

smart-log устройство [--namespace-id=номер-пространства] # вывести журнал SMART: "percentage_used" - процент записи от установленного изготовителем (Media_Wearout_Indicator), unit - тысяча секторов 512 байт (да?), controller_busy_time - в минутах)

Smart Log for NVME device:nvme0n1 namespace-id:ffffffff
critical_warning                    : 0
temperature                         : 13 C
available_spare                     : 100%
available_spare_threshold           : 10%
percentage_used                     : 0%
data_units_read                     : 4,065,976
data_units_written                  : 0
host_read_commands                  : 16,503,661
host_write_commands                 : 0
controller_busy_time                : 0
power_cycles                        : 2
power_on_hours                      : 6
unsafe_shutdowns                    : 0
media_errors                        : 0
num_err_log_entries                 : 0
Warning Temperature Time            : 0
Critical Composite Temperature Time : 0

Temperature Sensor 1                : 0 C
Temperature Sensor 2                : 0 C
Temperature Sensor 3                : 0 C
Temperature Sensor 4                : 0 C
Temperature Sensor 5                : 0 C
Temperature Sensor 6                : 0 C
Temperature Sensor 7                : 0 C
Temperature Sensor 8                : 0 C

или

Thermal Management T1 Trans Count   : 0
Thermal Management T2 Trans Count   : 0
Thermal Management T1 Total Time    : 0
Thermal Management T2 Total Time    : 0

smart-log-add устройство (убрана в пользу системы расширений)

Additional Smart Log for NVME device:nvme0n1 namespace-id:ffffffff
key                               normalized raw
program_fail_count              : 100%       0
erase_fail_count                : 100%       0
wear_leveling                   : 100%       min: 0, max: 1, avg: 0
end_to_end_error_detection_count: 100%       0
crc_error_count                 : 100%       0
timed_workload_media_wear       : 100%       0.000%
timed_workload_host_reads       : 100%       100%
timed_workload_timer            : 100%       380 min
thermal_throttle_status         : 100%       0%, cnt: 0
retry_buffer_overflow_count     : 100%       0
pll_lock_loss_count             : 100%       0
nand_bytes_written              : 100%       sectors: 685
host_bytes_written              : 100%       sectors: 0

error-log устройство [--log-entries=количество] # вывести журнал ошибок; неправильная (неподдерживаемая) команда - это ошибка; одинаковые ошибки сливаются в одну ячейку; пустые ячейки тоже выводятся
telemetry-log устройство -o имя-файла # мониторить внутренние события в указанный файл
endurance-log устройство
effects-log устройство [--human-readable] # вывести список ограничений реализации команд
ana-log устройство # журнал Asymmetric Namespace Access
get-feature устройство [--namespace-id=номер-пространства] [--feature-id=номер] [--data-len=длина] [--cdw11=dword-11] [--human-readable] [--sel=режим] # режимы: 0 - текущее значение, 1 - по умолчанию, 2 - сохранённое, 3 - возможности); номер - 1 байт?); список для Intel:
- get-feature:0x01 (Arbitration), Current value: 00000000
- get-feature:0x02 (Power Management), Current value: 00000000
- get-feature:0x04 (Temperature Threshold), Current value: 0x000166
- get-feature:0x05 (Error Recovery), Current value: 00000000
- get-feature:0x06 (Volatile Write Cache), Current value: 00000000
- get-feature:0x07 (Number of Queues), Current value: 0x1e001e
- get-feature:0x08 (Interrupt Coalescing), Current value: 00000000
- get-feature:0x09 (Interrupt Vector Configuration), Current value: 0x010000
- get-feature:0x0a (Write Atomicity Normal), Current value: 00000000
- get-feature:0x0b (Async Event Configuration), Current value: 00000000
- get-feature:0xc0 (Unknown), Current value: 00000000
- get-feature:0xc1 (Unknown), Current value: 0xe8e088af (Max LBA)
- get-feature:0xc2 (Unknown), Current value: 0xe8e088af (Native Max LBA)
- get-feature:0xc4 (Unknown), Current value: 00000000
- get-feature:0xc5 (Unknown), Current value: 00000000
- get-feature:0xc6 (Unknown), Current value: 00000000 (Power Governor: 0 - 25Вт, 1 - 20Вт, 2 - 10 Вт; можно устанавливать)
- get-feature:0xc8 (Unknown), Current value: 0x00006a
- get-feature:0xc9 (Unknown), Current value: 0x000001
- get-feature:0xd4 (Unknown), Current value: 00000000
- 0xd5 Status:INTERNAL(6) (Reset Timed Workload Counters, сюда можно только писать: 1 - сброс таймеров E2, E3 и E4)
- get-feature:0xd8 (Unknown), Current value: 00000000
- get-feature:0xe2 (Unknown), Current value: 00000000
- get-feature:0xf0 (Unknown), Current value: 00000000
set-feature устройство --feature-id=номер [--value=значение] [--data-len=длина] [--data=имя-файла]
set-property
show-regs
discover, connect, connect-all, disconnect-all, get-property - работа с NVMe-over-Fabrics
format устройство [--lbaf=формат-LBA] [--ses=режим-безопасного-стирания] [--pil=расположение] [--pi=режим] (режимы стирания: 0 - нет, 1 - стирать данные пользователя, 2 - криптографическое стирание (удаление ключа шифрования); расположение end-to-end защиты данных: 0 - в последних 8 байтах метаданных, 1 - в первых 8 байтах метаданных; режим end-to-end защиты данных: 0 - отсутствует)
fw-download (загрузка прошивки контроллера, затем необходимо активировать и сбросить контроллер)
fw-commit
fw-activate (активация прошивки в указанном слоте)
fw-log устройство (журнал прошивки - версия)
flush устройство (немедленно сохранить все данных)
reset управляющее-устройство
subsystem-reset
admin-passthru
io-passthru
compare
dms
read, write, write-zeroes, write-uncor
security-recv
security-send
device-self-test, self-test-log
dir-send, dir-receive
gen-hostnqn
sanitize, sanitize-log

Сборка версии 0.9: make.

Дополнения для LightNVM lnvm (LightNVM), memblaze, wdc, huawei, netapp, toshiba (KIOXIA на него не отзывается), micron, seagate и Intel (intel).

Расширения Intel (1.8.1):

intel help
intel version
intel id-ctrl устройство [--vendor-specific] [--raw-binary] [--human-readable] [--output-format=normal}json|binary] (добавляется вывод "health : healthy", не означает исправности устройства, см. флаги)
intel internal-log устройство [-n номер-пространства-имён] [--log=тип] [-o имя-файла (типы журналов: 0 - nlog (бинарный), 1 - журнал событий (двоичный), 2 - журнал предупреждений)
intel smart-log-add устройство
intel market-name устройство ("Intel@ SSD DC P3600 Series")

intel temp-stats устройство

  Intel Temperature Statistics
--------------------------------
Current temperature         : 12
Last critical overtemp flag : 0
Life critical overtemp flag : 0
Highest temperature         : 28
Lowest temperature          : 12
Max operating temperature   : 85
Min operating temperature   : 0
Estimated offset            : 0

intel lat-stats устройство [--write] (вывести статистику задержек чтения или записи, одни нули)

Расширения wdc (nvme wdc id-ctrl /dev/nvme0n1):

wdc help
wdc version
wdc cap-diag (журнал диагностики)
wdc drive-log (журнал устройства)
wdc get-crash-dump
wdc get-pfail-dump
wdc id-ctrl
wdc purge
wdc purge-monitor
wdc vs-internal-log (журнал прошивки)
wdc vs-nand-stats (только управляющее устройство, статистика NAND)
wdc vs-smart-add-log
wdc clear-pcie-correctable-errors
wdc drive-essentials
wdc get-drive-status
wdc clear-assert-dump
wdc drive-resize

Интересные данные в log:

critical_warning (триггер: изменение)
temperature (триггер: более 55)
available_spare (триггер: менее 10%)
percentage_used (триггер: более 90%)
data_units_read (512 KB)
data_units_written (512 KB)
host_read_commands
host_write_commands
media_errors (триггер: изменение)
num_err_log_entries (триггер: изменение)

Интересные данные в intel smart-log-add:

program_fail_count (триггер: изменение)
erase_fail_count (триггер: изменение)
wear_leveling (средний)
end_to_end_error_detection_count (триггер: изменение)
thermal_throttle_status (триггер: изменение)
retry_buffer_overflow_count (триггер: изменение)
nand_bytes_written (в секторах (?))
host_bytes_written (в секторах (?))

Серия Intel DC P3700 и другие

Серия Intel DC P3700 (17 полных записей в день (65ПБ) по JESD218/JESD219, 175K iops на запись 4KB при очереди 4x32 на весь объём), поставляется в форматах PCIe (AIC, add-in-card, HHHL, до +55°C) и SFF-8639 (до +30°C, горячая замена, 15 мм), имеют объём от 400 до 2000GB (резерв - 25%), достигают 450K iops на чтение, PCIe 3 x4, NVMe 1.0 (трансляция команд SCSI, включая UNMAP), процессор 400 МГц и 18 каналов и DDR3-1600 (1.25ГБ для модели 800ГБ, 2.5ГБ для модели 2000ГБ), типичная задержка 20 мкс, UBER - 1 сектор на 10^17 бит, питание по 3.3 и 12В, до 25Вт (можно программно задать ограничение в 10Вт и 20Вт, по умолчанию 20Вт?), устойчивость производительности - 90%, полная задержка записи - типичная 20 мкс, не более 0.09 мс для 99.9% при QD=1, не более 11мс для 99% при QD=128, защита от потери питания (конденсатор с самотестированием), гарантированная устойчивость скорости и задержек, время хранения данных без питания - 3 месяца при 40°C, встроенный датчик температуры (NVMe Health Log) и датчик температуры по SMBUS, поддержка T10 DIF (512+8 или 4096+8) и переменный размер сектора (512, 520, 528, 4096, 4104, 4160, 4224), индикаторы активности и здоровья, гарантия 5 лет. Обзоры:

CERN (сравнение S3500, S3700, P3600, P3700)
Tomshardware
Tomshardware (русский)
thessdreview
AnandTech

Серия Intel DC P3600 - SSDPEDME020T401 (3 полных записи в день (11ПБ) по JESD218/JESD219, 56K iops на запись 4KB при очереди 4x32 на весь объём, в 1.5 раза дешевле) поставляется в форматах PCIe (AIC, add-in-card, HHHL, до +55°C) и SFF-8639 (до +30°C, горячая замена, 15 мм), имеют объём от 400 до 2000GB (резерв - 12%), достигают 450K iops на чтение, PCIe 3 x4, NVMe 1.0 (трансляция команд SCSI, включая UNMAP), задержка 20 мкс, UBER - 1 сектор на 10^17 бит, питание по 3.3 и 12В, до 25Вт (можно программно задать ограничение в 10Вт и 20Вт, по умолчанию 25Вт "nvme id-ctrl /dev/nvme0n1 -H": "ps 0 : mp:25.00W operational"), устойчивость производительности - 90%, полная задержка записи - типичная 20 мкс, не более 0.09 мс для 99.9% при QD=1, не более 11мс для 99% при QD=128, защита от потери питания (конденсатор с самотестированием), гарантированная устойчивость скорости и задержек, время хранения данных без питания - 3 месяца при 40°C, встроенный датчик температуры (NVMe Health Log) и датчик температуры по SMBUS, поддержка T10 DIF (512+8 или 4096+8) и переменный размер сектора (512, 520, 528, 4096, 4104, 4160, 4224), индикаторы активности и здоровья, гарантия 5 лет.

lspci
83:00.0 Non-Volatile memory controller: Intel Corporation PCIe Data Center SSD (rev 01) (prog-if 02 [NVM Express])
        Subsystem: Intel Corporation DC P3600 SSD [Add-in Card]
        Capabilities: [40] Power Management version 3
        Capabilities: [50] MSI-X: Enable+ Count=32 Masked-
        Capabilities: [60] Express (v2) Endpoint, MSI 00
                LnkCap: Port #0, Speed 8GT/s, Width x4, ASPM L0s L1, Exit Latency L0s <4us, L1 <4us
                LnkSta: Speed 8GT/s, Width x4, TrErr- Train- SlotClk- DLActive- BWMgmt- ABWMgmt-
                LnkCtl2: Target Link Speed: 8GT/s, EnterCompliance- SpeedDis-
        Capabilities: [150 v1] Virtual Channel
        Capabilities: [180 v1] Power Budgeting

        Kernel driver in use: nvme

lsblk
nvme0n1                    259:0    0   1.8T  0 disk 

Файлы в /dev (разделы будут nvme0n1p1, n1 - это пространство имён 1)
crw------- 1 root root 245, 0 Oct 26 12:54 /dev/nvme0
brw-rw---- 1 root disk 259, 0 Oct 26 12:54 /dev/nvme0n1 

badblocks -sv -b 4096 -c 1024 /dev/nvme0n1 1

Device:         rrqm/s   wrqm/s     r/s     w/s    rMB/s    wMB/s avgrq-sz avgqu-sz   await r_await w_await  svctm  %util
nvme0n1           0.00     0.00 21708.00    0.00  2713.50     0.00   256.00    16.40    0.76    0.76    0.00   0.04  94.90 

отсутствует в /dev/disk

имеется /sys/block/nvme0n1 (/sys/block/nvme0n1/queue/:
  hw_sector_size и logical_block_size равно 512
  max_hw_sectors_kb 128
  max_sectors_kb 128
  nr_requests 1023
  read_ahead_kb 128
  rq_affinity 1
  scheduler none

blockdev --getra /dev/nvme0n1
256

После установки устройства в настройках BIOS (2013 год!) появились пункты

Intel SSDPEDME020T4-серийный_номер (только посмотреть информацию об устройстве)
Intel PCIe NVMe SSD (можно поменять информацию о FRU)

Intel SSD Data Center Tools - утилита командной строки для NVMe и SATA (пакет isdct - /etc/isdct, /usr/bin/isdct, /usr/lib/isdct/ (64 бит!). Например: "isdct show -intelssd" (сообщает, что имеется обновление прошивки) или "isdct show -all -smart" или "isdct show -sensor". Можно обновить прошивку и порулить размером сектора, обработкой ошибок, интерфейсом, мощностью, кешированием, объёмом.

Серия Intel DC P3500 (0.3 полных записи в день, резерв - 7%, 35K iops на запись 4KB) обещается вдвое дешевле P3700, линейная скорость - 2700/1800 МБ/сек, потребляемая мощность - 25 Вт.

Серия Intel DC P3520: PCIe 3.0 x4 (AIC и SFF (15 мм) с U.2 (SFF-8639)), 450ГБ и 1200ГБ и 2000ГБ (полный объём 2304ГБ), на базе 3D MLC (32 слоя, первый эксперимент, 32GB на микросхему), 1 полная запись в день, вдвое дешевле P3600, 18-канальный контроллер, до 2.5GB ОП Micron DDR3-1866 (2ГБ с учётом затрат на ECC), 375K/26K iops на чтение/запись 4KB, линейная скорость - 1700/1350 МБ/сек, потребляемая мощность - 12 Вт, конденсаторы для защиты от пропадания питания с самотестированием, T10 DIF, UBER - 10^-17, обзор.

Серия Intel DC P3320: PCIe 3.0 x4 (AIC и SFF с U.2 (SFF-8639)), 450ГБ и 1200ГБ и 2000ГБ, на базе 3D NAND (?TLC), 365K/22K iops на чтение/запись 4KB, 0.3 полных записи в день, линейная скорость - 1600/1400 МБ/сек, потребляемая мощность - ? Вт.

Серия Intel SSD 750 (219 TB (70GB в день), пиковые 290K IOPS на запись 4KB, реальные 22K IOPS на запись 4KB при очереди 32), втрое дешевле DC P3700, поставляется в форматах PCIe (HHHL, до +55°C) и SFF-8639 (до +30°C, горячая замена, 15 мм), имеют объём 400 или 1200GB (резерв - 18.8%), достигают 440K iops на чтение, PCIe 3 x4, NVMe 1.0 (трансляция команд SCSI, включая UNMAP), процессор 400 МГц и 18 каналов и DDR3-1600, типичная задержка 20 мкс, UBER - 1 сектор на 10^16 бит, питание по 3.3 и 12В, до 25Вт (можно программно задать ограничение в 10Вт и 20Вт, по умолчанию 20Вт?), обещаний по устойчивости производительности и качеству обслуживания не даётся, обещается защита от потери питания, но конденсатор отсутствует, время хранения данных без питания - 3 месяца при 40°C, встроенный датчик температуры (NVMe Health Log), но датчик температуры по SMBUS недоступен, индикаторы активности и здоровья, гарантия 5 лет. Обзоры:

AnandTech

Прощай Intel! Здравствуй Solidigm (подразделение Intel куплено SK Hynix)!

Серия Intel SSD D7-P5620 на базе 144-layer (96?) 3D TLC NAND: U.2 (15 мм), до 12.8TB (6.4TB - SSDPF2KE064T1), PCIe 4.0 x4, NVMe 1.4, NVMe-MI 1.1, "up to" 390000 IOPS, 7100/4200 MB/сек, 3 DWPD (гарантия 5 лет), защита от пропадания питания с самотестированием (PLI), потребляемая мощность - 18 Вт, UBER - 10^-17.

Серия SSD Solidigm D7-P5810 использует 144-слойную память 3D NAND в режиме SLC обеспечивают 50 DWPD (73 PB всего), имеют объём 800 и 1600 ГБ, выпускаются в формате U.2 (15 мм), интерфейс PCIe 4.0 x4, до 865K/495K iops на чтение/запись 4KB, линейная скорость - до 6400/4000 МБ/сек, потребляемая мощность - 12 Вт, конденсаторы для защиты от пропадания питания с самотестированием, T10 DIF, UBER - 10^-17. Из интересного о контроллере (nvme id-ctrl -H /dev/nvme0):

mdts: 5 # 2^5*4k = 128 KiB максимальный размер передаваемых данных
ctratt: 0 # Endurance Groups Not Supported, NVM Sets Not Supported
oacs: поддерживаемые наборы команд (Self-test, управление пространствами имён, загрузка прошивки, форматирование)
frmw: работа с прошивкой (4 слота, активация без сброса)
nn: 128 # количество пространств имён
lpa: телеметрия, расширенный журнал, журнал эффектов, нет SMART для пространств имён
apsta: автономный переход состояния питания не поддерживается
oncs: поддерживаемые наборы команд (Save and Select, запись нулей, управление наборами данных, запись немыслимого)
fuses: поддержка слитых сравнения и записи отсутствует
vwc: отсутствие теряемого кеша записи
subnqn: NQN подсистемы (nqn.2022-12.com.intel:s/n)
ps 0: максимальное потребление 25 Вт (не 18!), потребление в покое 5 Вт, потребление в активном состоянии 25 Вт

Из интересного о свойствах пространств имён (id-ns -H /dev/nvme0n1):

nsfeat: отсутствует выделение по запросу (thin)
nmic: multipath отсутствует (1 порт?)
rescap: эксклюзивный доступ отсутствует (1 порт?)
fpi: отсутствует индикатор прогресса форматирования

форматы LBA:

LBA Format  0 : Metadata Size: 0   bytes - Data Size: 512 bytes - Relative Performance: 0x2 Good (in use)
LBA Format  1 : Metadata Size: 8   bytes - Data Size: 512 bytes - Relative Performance: 0x2 Good 
LBA Format  2 : Metadata Size: 0   bytes - Data Size: 4096 bytes - Relative Performance: 0x2 Good 
LBA Format  3 : Metadata Size: 8   bytes - Data Size: 4096 bytes - Relative Performance: 0x2 Good 
LBA Format  4 : Metadata Size: 64  bytes - Data Size: 4096 bytes - Relative Performance: 0x2 Good

Серия Intel DC P4800X (Optane, 3D XPoint)

Серия Intel DC P4800X (обзор на anandtech) имеет контроллер на 7 каналов, поставляется в форм-факторе платы PCIe HHHL или U.2 SFF (2.5") толщиной 15mm, интерфейс PCIe 3.0 x4 NVMe, объёмы 375 GB (SSDPED1K375G[A01] и SSDPE21K375G[A01]) или 750 GB (SSDPED1K750GA01[A01] и SSDPE21K750GA01[A01]) или 1.5TB (SSDPED1K015T[A01] и SSDPE21K015T[A01]). Отсутствует память для кеширование и конденсаторы для сохранения её содержимого при пропадании питания. Обещается:

случайное чтение/запись (QD16) - до 550/500k IOPS (задежка 25 мкс)
случайное чтение/запись (QD1) - до 108/94k IOPS (задержка 10 мкс)
последовательное чтение/запись (QD1) - до 2.3GBps/1.9GBps,
ресурс 30 DWPD
18 Вт

lspci
84:00.0 Non-Volatile memory controller: Intel Corporation Optane DC P4800X Series SSD (prog-if 02 [NVM Express])
        Subsystem: Intel Corporation DC P4800X Series [Add-in Card]
                DevCap: MaxPayload 256 bytes, PhantFunc 0, Latency L0s <4us, L1 <4us
        Capabilities: [40] Power Management version 3
        Capabilities: [50] MSI-X: Enable+ Count=32 Masked-
        Capabilities: [60] Express (v2) Endpoint, MSI 00
                LnkCap: Port #0, Speed 8GT/s, Width x4, ASPM L0s, Exit Latency L0s <4us, L1 unlimited
                LnkSta: Speed 8GT/s, Width x4, TrErr- Train- SlotClk+ DLActive- BWMgmt- ABWMgmt-
                LnkCtl2: Target Link Speed: 8GT/s, EnterCompliance- SpeedDis-
        Capabilities: [150 v1] Virtual Channel
        Capabilities: [180 v1] Power Budgeting

        Kernel driver in use: nvme
        Kernel modules: nvme

Серия Intel DC D4800X - в формфакторе U.2 SFF (2.5") толщиной 15mm, интерфейс PCIe 3.0 2x2 NVMe (2 порта x2), объёмы 375 GB или 750GB или 1.5TB.

Серия Intel DC P4801X - в формфакторе M.2, интерфейс PCIe 3.0 x4 NVMe, объёмы 100GB или 200GB или 375 GB.

Intel ликвидирует направление Optane и 3D XPoint, Micron вышла из проекта ранее.

Серия KIOXIA CM6-V и другие

Серия KIOXIA (бывшая Toshiba) CM6-V расчитана на нагрузку 3 DWPD (методика не указана, гарантия 5 лет), поставляются в объёмах 12.8 TB (KCM61VUL12T8), 6.4 TB (KCM61VUL6T40), 3.2 TB (KCM61VUL3T20), 1.6TB (KCM61VUL1T60) и 800 GB (KCM61VUL800G). Изготавливаются на базе 96-уровнего BiCS 3D TLC и 18-канального контроллера, 8GB DRAM. Имеются варианты с шифрованием и безопасной очисткой (SIE, SED, SED FIPS). Поставляется в формате U.3 (SFF-TA-1001, SFF/2.5", 15 мм толщиной) под PCIe 4.0 (1x4 или 2x2) и NVME 1.4. Обещается работоспособность при отказе 2 микросхем флеша, защита от внезапного отключения питания (PLP, конденсатор с самотестированием) и сквозная защита данных (end-to-end). Возможен выбор из 6 режимов потребления (12 В) вплоть до 21 Вт (в реальности устройство предлагает до 27.5 Вт), в ожидании - от 5 Вт. Обещается производительность последовательных операций до 6900/4200 MB/s, случайных - до 1400/350 kIOPS (при QD=256/32), задержки 90/10 мкс при QD=1 (11/99 kIOPS). Из интересного о контроллере (nvme id-ctrl -H /dev/nvme8):

mdts : 13 # 2^13*4k = 32768k = 32 MiB максимальный размер передаваемых данных
ctratt: поддерживаемые наборы команд (Endurance Groups, NVM Sets Supported)
oacs: поддерживаемые наборы команд (NVMe-MI Send and Receive, Self-test, управление пространствами имён, загрузка прошивки, форматирование, Security Send and Receive)
frmw: работа с прошивкой (3 слота, активация без сброса)
nn : 64 # количество пространств имён
lpa: телеметрия, расширенный журнал, журнал эффектов, нет SMART для пространств имён
apsta: автономное питание?
sanicap: режимы зачистки - стирание блоков
nn: 64 # количество пространств имён
oncs: поддерживаемые наборы команд (виртуализация, резервирование, запись нулей, управление наборами данных, запись немыслимого, сравнение)
fuses: поддержка слитых сравнения и записи
vwc: отсутствие теряемого кеша записи
subnqn: NQN подсистемы (NQN изготовителя, модель, серийный номер)
ps 0: максимальное потребление 27.5 Вт, потребление в покое 6 Вт, потребление в активном состоянии 25 Вт

Из интересного о свойствах пространств имён:

nsfeat: отсутствует выделение по запросу (thin))
nmic: multipath
rescap: все режимы эксклюзивного доступа
fpi: имеется индикатор прогресса форматирования

форматы LBA:

LBA Format  0 : Metadata Size: 0   bytes - Data Size: 512 bytes - Relative Performance: 0 Best (in use)
LBA Format  1 : Metadata Size: 8   bytes - Data Size: 512 bytes - Relative Performance: 0 Best 
LBA Format  2 : Metadata Size: 0   bytes - Data Size: 1  bytes - Relative Performance: 0 Best 
LBA Format  3 : Metadata Size: 0   bytes - Data Size: 4096 bytes - Relative Performance: 0 Best 
LBA Format  4 : Metadata Size: 8   bytes - Data Size: 4096 bytes - Relative Performance: 0 Best 
LBA Format  5 : Metadata Size: 64  bytes - Data Size: 4096 bytes - Relative Performance: 0 Best

Серия CD6-V рассчитан только на режим PCIe 1x4 и использует 16-канальный контроллер.

Серии CM6-R и CD6-R расчитаны на нагрузку 1 DWPD.

Серии PM6-V (3DWPD) и PM6-M (10DWPD) - вариант для SAS 24G. PM6-V (3DWPD) KPM61VUG6T40: 6.4TB, 595/290 KIOPS. PM6-M (10DWPD) KPM61MUG1T60: 1.6TB, 595/452 KIOPS.

Серии HK6-V и HK6-M - вариант для SATA.

Серия FL6 (XL-FLASH, SLC) расчитана на нагрузку 60 DWPD и меньшую задержку (29/8 мкс).

Обзоры:

Тестирование многопоточного восстановления файлов (bacula)

2 Intel Xeon Gold 6234 (8 ядер @ 3.3/4.0 GHz)
384 GB RDRAM 2933 (12 каналов по 10ГБ/сек)
BIOS и ОС настроены на полный performance (производительность - Performance; Uncore Frequency Scaling - выключить; Turbo Boost включить, а energy efficient turbo - выключить; Hardware P-States - None; Speed Select (Base) и cTDP (Nominal); C-States и C1E выключить; память в режиме ADDDC - выключить)
HT - выключить
8 SSD подключены через коммутатор PCIe 3.1 x8
CentOS 7.9, родное ядро
performance в scaling_governor и "x86_energy_perf_policy performance"
pvcreate /dev/nvme15n1 /dev/nvme16n1 /dev/nvme17n1 /dev/nvme18n1 /dev/nvme19n1 /dev/nvme20n1 /dev/nvme21n1 /dev/nvme22n1
vgcreate test8 /dev/nvme15n1 /dev/nvme16n1 /dev/nvme17n1 /dev/nvme18n1 /dev/nvme19n1 /dev/nvme20n1 /dev/nvme21n1 /dev/nvme22n1
lvcreate --name full --extents 100%FREE --stripes 8 test # stripe 64k
mkfs.xfs -L test8 -d su=64k,sw=8 -l su=64k /dev/test8/full
монтирование: nodiratime,attr2,logbufs=8,logbsize=65536,filestreams,inode32
потоки bacula restore
- 1 поток - 679-758 MB/s
- 2 потока - 992-1291 MB/s
- 3 потока - 1445-1497 MB/s
- 4 потока - 1805-1929 MB/s
- 5 потоков - 2170-2294 MB/s
- 6 потоков - 2196-2454 MB/s
- 7 потоков - 2237-2586 MB/s # утилизация источника доходит до 95% (1068 MB/s)
- 8 потоков - 3069-3350 MB/s # утилизация источника доходит до 99% (1115 MB/s), утилизация SSD менее 75%
- дополнительные 2 потока от второго bacula-sd повышают нагрузку до 3917 MB/s (утилизация SSD - 85%, сеть - 40 Гб)
распределение вывода на 2 файловые системы повышают нагрузку до 4100-4600 MB/s
параллельный поиск файлов (bin/findtoobig_all.sh) - 80k IOPS, 1GB/s

Тестирование многопоточного восстановления файлов (bacula) на ext4

2 Intel Xeon Gold 6234 (8 ядер @ 3.3/4.0 GHz)
384 GB RDRAM 2933 (12 каналов по 10ГБ/сек)
BIOS и ОС настроены на полный performance (производительность - Performance; Uncore Frequency Scaling - выключить; Turbo Boost включить, а energy efficient turbo - выключить; Hardware P-States - None; Speed Select (Base) и cTDP (Nominal); C-States и C1E выключить; память в режиме ADDDC - выключить)
HT - выключить
8 SSD подключены через коммутатор PCIe 3.1 x8
CentOS 7.9, родное ядро
performance в scaling_governor и "x86_energy_perf_policy performance"
pvcreate /dev/nvme15n1 /dev/nvme16n1 /dev/nvme17n1 /dev/nvme18n1 /dev/nvme19n1 /dev/nvme20n1 /dev/nvme21n1 /dev/nvme22n1
vgcreate test8 /dev/nvme15n1 /dev/nvme16n1 /dev/nvme17n1 /dev/nvme18n1 /dev/nvme19n1 /dev/nvme20n1 /dev/nvme21n1 /dev/nvme22n1
lvcreate --name full --extents 100%FREE --stripes 8 test # stripe 64k
mkfs.ext4 -E stride=8,stripe_width=512,lazy_itable_init=0,lazy_journal_init=0 -G 128 -J size=512 -L test8 -v -O 64bit,dir_index,dir_nlink,extent,ext_attr,filetype,flex_bg,has_journal,huge_file,large_file,meta_bg,sparse_super
монтирование: stripe=512,nodiratime,journal_checksum,journal_async_commit,delalloc,[data=writeback,][nobarrier,]relatime
потоки bacula restore
- 1 поток - 584-686 MB/s
- 2 потока - 809-1101 MB/s
- 3 потока - 1322-1402 MB/s
- 4 потока - 1597-1778 MB/s
- 5 потоков - 1926-1977 MB/s
- 6 потоков - 2144-2336 MB/s
- 7 потоков - 2302-2479 MB/s
- 8 потоков - 2603-2842 MB/s
- дополнительные 2 потока от второго bacula-sd повышают нагрузку до 3375 MB/s

Тестирование многопоточного копирования файлов из одной файловой системы на базе 8 SSD, подключённой через коммутатор PCIe 3.1 x8б в другую такую же:

2 Intel Xeon Gold 6234 (8 ядер @ 3.3/4.0 GHz)
384 GB RDRAM 2933 (12 каналов по 10ГБ/сек)
BIOS и ОС настроены на полный performance (производительность - Performance; Uncore Frequency Scaling - выключить; Turbo Boost включить, а energy efficient turbo - выключить; Hardware P-States - None; Speed Select (Base) и cTDP (Nominal); C-States и C1E выключить; память в режиме ADDDC - выключить)
HT - выключить
8 SSD подключены через коммутатор PCIe 3.1 x8
CentOS 7.9, родное ядро
performance в scaling_governor и "x86_energy_perf_policy performance"
pvcreate /dev/nvme15n1 /dev/nvme16n1 /dev/nvme17n1 /dev/nvme18n1 /dev/nvme19n1 /dev/nvme20n1 /dev/nvme21n1 /dev/nvme22n1
vgcreate test8 /dev/nvme15n1 /dev/nvme16n1 /dev/nvme17n1 /dev/nvme18n1 /dev/nvme19n1 /dev/nvme20n1 /dev/nvme21n1 /dev/nvme22n1
lvcreate --name full --extents 100%FREE --stripes 8 test # stripe 64k
повторить для test8bis
mkfs.xfs -f -L test8bis -d su=64k,sw=8 -l su=64k,lazy-count=1 /dev/test8left/full
монтирование: relatime,attr2,logbufs=8,logbsize=65536,filestreams,inode32,noauto
потоки tar_copy_all.sh
- 1: 700-800 MB/s
- 2: 1100-1400 MB/
- 3: 1429-1979 MB/s
- 4: 1851-2329 MB/s
- 8: 2035-3466 MB/s # 4500 IOPS
- 16: 3098-3664 MB/s # 5500 IOPS
- 100: 3110-3229 MB/s

Копирование с файловой системы из 8 SSD без чередования в другую такую же (16 потоков) - 3600 MB/s.

Копирование с файловой системы из 8 SSD в файловую систему из 1 SSD (16 потоков) - 3006-3019 MB/s (запись 20K IOPS).

Копирование с файловой системы из 1 SSD в файловую систему из 8 SSD (16 потоков) - 3134-3265 MB/s (чтение 37K IOPS).

Копирование с файловой системы из 1 SSD в файловую систему из 1 SSD внутри коммутатора (16 потоков) - 2992-3024 MB/s (чтение 36 Kiops, запись 19 Kiops).

Копирование с файловой системы из 1 SSD в файловую систему из 1 SSD между коммутаторами (16 потоков) - 2993-3035 MB/s (чтение 36 Kiops, запись 19 Kiops).

Копирование с файловой системы из 1 SSD в файловую систему из 1 SSD внутри коммутатора (16 потоков), одновременно с копированием с третьей файловой системы из 1 SSD в четвертую файловую систему из 1 SSD внутри того же коммутатора, одновременно с копированием с пятой файловой системы из 1 SSD в шестую файловую систему из 1 SSD внутри того же коммутатора - 3x1600 MB/s (чтение 3 x 20 Kiops, запись 3 x 12 Kiops) при 0% idle.

Одновременный badblock с 3 SSD внутри коммутатора достигает 3x2200 MB/s.

Увеличил stripe с 64k до 1024k

lvcreate --name full --extents 100%FREE --stripes 8 --stripesize 1m --type striped test8left
mkfs.xfs -f -L test8bis -d su=1024k,sw=8 -l su=1024k,lazy-count=1 /dev/test8left/full
восстановление bacula с 2 серверов - 3300 GB/s
потоки tar_null_all.sh (tar | dd of=/dev/null)
- 8 - 5.3 GB/s
- 16 - 6.5 GB/s
- 2 по 8 (на разных коммутаторах) - 9.5 GB/s
- 2 по 12 (на разных коммутаторах) - 10.6 GB/s
- 3 по 8 (на разных коммутаторах) - 10 GB/s (0% idle)
- 3 по 12 (на разных коммутаторах) - 10.4 GB/s (0% idle)
3 dd очень больших файлов в /dev/null в режиме direct - 3 x 6.8 GB/s

Тестирование многопоточного чтения файлов из файловой системы на базе 4 SSD, подключённых напрямую к ЦП, условия:

2 Intel Xeon Gold 6234 (8 ядер @ 3.3/4.0 GHz)
384 GB RDRAM 2933 (12 каналов по 10ГБ/сек)
BIOS и ОС настроены на полный performance (производительность - Performance; HT- включить; Uncore Frequency Scaling - выключить; Turbo Boost включить, а energy efficient turbo - выключить; Hardware P-States - None; Speed Select (Base) и cTDP (Nominal); C-States и C1E выключить; память в режиме ADDDC - выключить)
CentOS 7.9 ("mitigations=off processor.max_cstate=1 intel_idle.max_cstate=0" в /etc/default/grub; "grub2-mkconfig -o /etc/grub2-efi.cfg") с ядром UEK6/u3
performance в scaling_governor и "x86_energy_perf_policy performance"
советы из tuned: vm/swappiness = 10, vm/dirty_ratio = 10, vm/dirty_background_ratio = 3, sched_migration_cost_ns = 5000000, sched_min_granularity_ns = 10000000

SSD отформатированы под блоки 4096 вместо 512 (уже сейчас 4096 в optimal_io_size и physical_block_size и minimum_io_size):

nvme list-ns /dev/nvme8
[   0]:0x1

nvme id-ns /dev/nvme8 - -namespace-id=0x1
nlbaf   : 5 # 6 штук форматов = количество поддерживаемых комбинаций размера данных LBA и размера метаданных - 1
flbas   : 0 # использованный вариант
lbaf  0 : ms:0   lbads:9  rp:0 (in use) # ms - размер метаданных, lbads - 2^9 - размер блока
lbaf  1 : ms:8   lbads:9  rp:0
lbaf  2 : ms:0   lbads:0  rp:0
lbaf  3 : ms:0   lbads:12 rp:0
lbaf  4 : ms:8   lbads:12 rp:0
lbaf  5 : ms:64  lbads:12 rp:0

nvme format --lbaf=3 /dev/nvme8n1
cat /sys/block/nvme8n1/queue/hw_sector_size
4096

на всякий случай перезагрузиться и только потом собрать LVM

SSD подключены напрямую к ЦП1 (2 штуки) и ЦП2 (2 штуки) - задержки чтения/записи/передачи-1МБ 90/10/300 мкс, настройки по умолчанию (ra = 128 KiB, планировщик none)
собран LV (lvcreate --name fast --extents 100%FREE --stripes 4 --stripesize 1m --type striped test8left; ra auto = 8 MiB)
собрана файловая система XFS (mkfs.xfs -f -L fast -m finobt=1 -d su=1m,sw=4 -l su=256k,lazy-count=1 /dev/test8left/fast)
смонтирована файловая система XFS (relatime,nodiratime,attr2,largeio,logbufs=8,logbsize=262144,filestreams,inode32,noquota,noauto)
файлы скопированы с medium на fast в 16 потоков tar_copy_all.sh ("tar -C /test4medium/$1 -H posix -cf - . | tar -C /test4fast/$1 -xf -"; 5-6GB/sec; 20% idle)
для данных общим объёмом 25 ТБ (24714206875648 байт; 77456505 файлов; dentry - 15 млн, 44 GB) выполняется многопоточное чтение последовательности файлов
распараллеливание производится на втором уровне файловой иерархии (169 каталогов);
завершение по передаче последнего байта
используемая ранее (ради O_DIRECT) схема с использованием dd ("find $1 -type f -exec dd if={} iflag=... bs=10240k of=/dev/null status=none") оказалась непригодной - 2/3 времени ЦП уходит на exec, а производительности ЦП на таких скоростях не хватает

umount /test4fast
mount /test4fast
cd /test4fast
time echo */*|xargs --max-args=1 --max-procs=$par ~/bin/tar_null.sh

где ~/bin/tar_null.sh (fullblock, noblock и увеличение размера блока ухудшают результат):

tar -C $1 -H posix -cf - . 2>/dev/null | dd bs=10240k of=/dev/null iflag=direct status=none

при большом количестве потоков (64-32) - user 1% system 51%, irq+softirq 2%

потоков	B/s	cgroups 16GB	cgroups 64GB	nocache	dm_mq_nr_hw_queues=4	max_sectors_kb=4096	memoptimizer	nomerges=2	kswapd_threads=2
64	10777033988	7909308024	8268012945	11224669028	10770059744	10724334269	10978509982	10260260226	10651385274
48	10850600622	7915296364	8208583725	11344441837	10859769305	10897233727	11082271015	10331300676	10729385861
40	11033620641	7851747288	8200518783	11487355543	10883993069	10926390888	11162891702	10445225102	10838147854
36	11008221967	7722125443	8156240120	11598835374	11013947083	11015036854	11229871405	10448475241	10881611347
32	11116781852	7553569523	8018901683	11665249174	11140695463	11190874435	11339658269	10507691875	11038987603
28	11290263828	7508151497	?	11853683429	11224888247	11260592028	11511149091	10707639722	11148811924
24	11475546238	7391191198	?	11670790907	11471423507	11373756854	11602908578	10776719130	11269356933
20	11224852560	7178042030	?	11209736466	11172010120	11267784716	11344759496	10630923225	11016544235
16	10829129507	6633334811	?	10592440006	10771327117	10804501914	10530220711	10213896087	?
12	9420469805	5908127845	?	9229946723	9449732567	9545153666	9277038517	9068465303	?
10	8664042378	5454408132	?	8437339223	8639941434	8640853713	8521605497	8131123007	?
8	7481289176	4857298519	?	7200683314	7545914885	7550613302	7462012225	7205724084	?
6	6113366421	4081786139	?	5822417716	6142515118	6153992672	6044897523	5950868514	?
5	5347241484	3669119140	?	5089228975	?	5353644738	5281771602	5189684569	?
4	4516367973	?	?	?	?	4508470116	4505654969	4453895409	?
3	3531078686	?	?	?	?	?	3472161527	3487673205	?
2	2451575186	?	?	?	?	?	2415165446	2433320964	?
1	?	?	?	?	?	?	?	?	?

Ограничение памяти с помощью cgroups делалось так (pagecache держится на уровне 16GB (17.5GB), но used растёт (44GB); 100% CPU при 64-32)

cgcreate -g memory:backup
echo 16G > /sys/fs/cgroup/memory/backup/memory.kmem.limit_in_bytes
echo 16G > /sys/fs/cgroup/memory/backup/memory.limit_in_bytes

echo номер-процесса-головного-bash > /sys/fs/cgroup/memory/backup/tasks

nocache добавляет POSIX_FADV_DONTNEED в close. pagecache остаётся в пределах 67ГБ (и 45 ГБ в used), каждый SSD под нагрузкой - 17244.10 r/s, 633.30 w/s, avgqu-sz 22.77, await 2.17 мс, загрузка ЦП падает - user 2%, system 44%, (вместо 50%) irq+softirq 2%, umount идёт вечность (8% от времени теста) - 173 секунды. Пропускная способность увеличивается при большом количестве потоков и уменьшается при малом. Сборка стандартная: unzip nocache-master.zip; cd nocache-master; make; make install (/usr/local/lib/nocache.so, /usr/local/bin/{nocache,cachede,cachestats}, /usr/local/share/man/man1/{nocache.1,cachestats.1,cachedel.1}). Количество дескрипторов NOCACHE_MAX_FDS=1Mi по умолчанию, если надо больше, то надо поменять и пересобрать Использование: nocache ключи-nocache программа ключи-программы. Ключи nocache:

-n уровень # устанавливает NOCACHE_NR_FADVISE=уровень, если продолжает кешировать при 1, то повысить
-f # NOCACHE_FLUSHALL=1, сбрасывать и горячие страницы

Увеличение /sys/module/dm_mod/parameters/dm_mq_nr_hw_queues с 1 до 4 не приносит пользы, глубина очереди уменьшается (11.75), уменьшается время ожидания (1.22).

Почему-то /sys/block/nvme8n1/queue/max_hw_sectors_kb=4096, а max_sectors_kb=1280 (изменяемо) при mdts=32M, увеличение до 4096 не показало преимущества:

cat /sys/block/dm-2/queue/max_sectors_kb
1280
cat /sys/block/nvme8n1/queue/max_sectors_kb
1280
echo 4096 > /sys/block/dm-2/queue/max_sectors_kb
echo 4096 > /sys/block/nvme8n1/queue/max_sectors_kb
echo 4096 > /sys/block/nvme9n1/queue/max_sectors_kb
echo 4096 > /sys/block/nvme22n1/queue/max_sectors_kb
echo 4096 > /sys/block/nvme23n1/queue/max_sectors_kb

memoptimizer запускается в фоне и периодически подстраивает /proc/sys/vm/watermark_scale_factor под текущую нагрузку и запускает дефрагментатор pagecache при необходимости и ограничивает память занимаемую неудачными dentry (статически при запуске, пишет 15 (1.5% от размера ОП) в /proc/sys/fs/negative-dentry-limit). Пропускная способность увеличивается при большом количестве потоков и уменьшается при малом. Оформлен как сервис systemd. /proc/sys/vm/watermark_scale_factor (в 1/10000 от (high watermark - low watermark); по умолчанию - 10) используется kswapd для определения количество освобождаемых страниц pagecache при каждом проходе. Также имеется /proc/sys/vm/watermark_boost_factor (в 1/10000 от high watermark; по умолчанию - 15000), который определяет количество освобождаемых страниц pagecache при каждом вызове дефрагментатора. Параметры (/etc/sysconfig/memoptimizer, /etc/default/memoptimizer):

-d # не уходить в фон
-v # больше сообщений
-s # имитация работы
-a частота-подстройки # 1- редко, 2 - нормально, 3 - часто
-m ГБ # сохранять указанный разрыв между high watermark и low watermark

Отключение слияния не принесло пользы, делалось так (было 0):

echo 2 > /sys/block/dm-2/queue/nomerges
echo 2 > /sys/block/nvme8n1/queue/nomerges
echo 2 > /sys/block/nvme9n1/queue/nomerges
echo 2 > /sys/block/nvme22n1/queue/nomerges
echo 2 > /sys/block/nvme23n1/queue/nomerges

Увеличение количества потоков kswapd на узел NUMA (2 в /proc/sys/vm/kswapd_threads) не принесло пользы. Вместе с memoptimizer тоже не принесло пользы. Очень слегка увеличивается нагрузка на ЦП.

Отключил HT

потоков	B/s без HT	HT	HT + rq_affinity=2	HT + zone_reclaim_mode	HT + dm/ra=512	HT + dm/ra=128	HT + dm/ra=2048	HT ra=256/1024	HT ra=64/256
64	10788715499	10777033988	10612307440	10768370377	11228396909	12180894616	10644751461	10622593292	11710119344
48	10856615972	10850600622	10682300343	10842912406	11349495249	12386602130	10719547797	10632377618	11900361609
40	11034502456	11033620641	10792470433	11006991378	11609045564	12345184162	10876889323	10578190326	12164263370
36	11147690495	11008221967	10840791140	11057568257	11765678096	12049145356	11033443310	10615302192	12364262345
32	11237500068	11116781852	10969242028	11114996969	11956576074	11806236260	11118907462	10705195435	12044341987
28	11308153468	11290263828	11112418149	11232739874	12024961963	11481559867	11350944377	10807152441	11683701611
24	11402881783	11475546238	11159791705	11384576030	11828601521	11144121529	11350860964	10765087014	11549542127
20	11065331147	11224852560	11078162779	11059621788	11460571574	?	?	10467136362	11034394069
16	10677034663	10829129507	?	10625703494	10609587646	?	?	9800827188	10076959565
12	9496351338	9420469805	?	?	9495482969	?	?	8717899225	8790727334
10	8574881738	8664042378	?	?	8551468891	?	?	7959248523	7957846651
8	7535391215	7481289176	?	?	7304403109	?	?	6909730794	?
6	6159910290	6113366421	?	?	5892570539	?	?	5643694553	?
5	5380653296	5347241484	?	?	5155557620	?	?	?	?
4	4532735761	4516367973	?	?	4368172467	?	?	?	?
3	3519688439	3531078686	?	?	?	?	?	?	?
2	2461933135	2451575186	?	?	?	?	?	?	?
1	?	?	?	?	?	?	?	?	?

Без HT утилизация ЦП возрастает: 3.5% us, 69% sy, 2% прерывания. Пропускная способность не меняется. При полной загрузке ЦП другими задачами включение HT даёт увеличение пропускной способности на 17% (получено в другой серии тестов).

Переход на опросы вместо прерываний (адаптивный, poll_queues требуется устанавливать при загрузке), однако каждое устройство NVME имеет 32 (по числу ядер с учётом HT) очереди, отдельное прерывание на каждую привязано к ядру и их немного (/proc/interrupts, 200 в секунду на ядро на устройство; 4800/сек на все устройства на ядро), так что стало хуже

echo 4 > /sys/module/nvme/parameters/poll_queues # 0
echo 1 > /sys/block/nvme8n1/queue/io_poll
-bash: echo: write error: Invalid argument

добавил nvme.poll_queues=32 в /etc/default/grub и "grub2-mkconfig -o /etc/grub2-efi.cfg"
reboot

echo 1 > /sys/block/nvme8n1/queue/io_poll
echo 1 > /sys/block/nvme9n1/queue/io_poll
echo 1 > /sys/block/nvme22n1/queue/io_poll
echo 1 > /sys/block/nvme23n1/queue/io_poll
echo 0 > /sys/block/nvme8n1/queue/io_poll_delay # было -1
echo 0 > /sys/block/nvme9n1/queue/io_poll_delay
echo 0 > /sys/block/nvme22n1/queue/io_poll_delay
echo 0 > /sys/block/nvme23n1/queue/io_poll_delay

Отключение сбора статистики (0 в /sys/block/nvme{8,9,22,23}n1/queue/iostats) ничего не даёт (слишком мало IOPS).

Смена режима привязки потоков к ядрам ухудшает пропускную способность.

cat /sys/block/dm-3/queue/rq_affinity
0
cat /sys/block/nvme{8,9,22,23}n1/queue/rq_affinity
1
1
1
1
echo 2 > /sys/block/dm-3/queue/rq_affinity
echo 2 > /sys/block/nvme8n1/queue/rq_affinity
echo 2 > /sys/block/nvme9n1/queue/rq_affinity
echo 2 > /sys/block/nvme22n1/queue/rq_affinity
echo 2 > /sys/block/nvme23n1/queue/rq_affinity

Увеличение локальности данных за счёт кеширования (1 в /proc/sys/vm/zone_reclaim_mode вместо 0) не приносит пользы.

Уменьшение агрессивности предварительного чтения для LV с 8192 до 2048 не даёт улучшений нигде.

Уменьшение агрессивности предварительного чтения для LV с 8192 до 512 (4-кратное от предварительного чтения устройств) приводит к увеличению IOPS до 25K на устройство (100K всего), уменьшению очереди и времени ожидания, график пропускной способности превращается почти в ровную линию (12 GB/s) при количестве потоков более 24, средняя пропускная способность увеличивается. При малом количестве потоков пропускная способность уменьшается.

Уменьшение агрессивности предварительного чтения для LV с 8192 до 128 (равное ra устройства) приводит к увеличению IOPS до 45K на устройство, уменьшению очереди и времени ожидания. график пропускной способности ещё уплощается чуть выше прежнего при количестве потоков более 32, средняя пропускная способность увеличивается ещё при более 32 потоков. При количестве потоков менее 28 пропускная способность уменьшается.

Отключение /sys/block/dm-3/bdi/read_ahead_kb (8192) для LV приводит к разбиению запросов на чтение по 4КиБ, уменьшению нагрузки ЦП (20% sy, 5% hi), увеличению IOPS до 220K на устройство и катастрофическому уменьшению пропускной способности.

Увеличение предварительного чтения для устройств до 256 и установка 1024 (4-кратное) для LV ухудшает пропускную способность везде.

Уменьшение предварительного чтения для устройств до 64 и 256 (4-кратное) для LV увеличивает IOPS до 32K. Очередь и время ожидания почти 0. Пропускная способность увеличивается при количестве потоков более 24, при меньшем количестве потоков пропускная способность уменьшается.

Отключение предварительного чтения для устройств приводит к загрузке ЦП в 100% и значительному уменьшению пропускной способности.

Увеличить MPS (MaxPayload, DevCap: MaxPayload 512 bytes, DevCtl: MaxPayload 256 bytes) с помощью pci=pcie_bus_perf не удалось. В настройках BIOS ничего подходящего не нашёл. По слухам, накладные расходы при пакетах 256 байт равны 6%. Это лучше чем 12% при стандартном размере пакете (128), но хуже чем могло бы быть (3.4% при родном размере пакета в 512 байт).

Регулярный (в начале и раз в 10 минут) прогрев высокопараллельным find (findhot_all.sh, 0 в /proc/sys/vm/vfs_cache_pressure вместо 100, 70K IOPS) только мешает.

Продолжаем, всё полезное вместе: HT + 512 в /sys/block/dm-5/bdi/read_ahead_kb + nocache + memoptimizer - ускорение при количестве потоков более 24 и замедление при количестве потоков менее 20.

потоков	HT	вместе	коммутатор на 4	блок 512	ext4	ext4+inline	ext4+inline+cache	ext4+inline+bigalloc+fast_commit	mdadm stripe
64	10777033988	11676740629	6479316003	10569382357	10542246914	?	11654512359	11744508529	10409373933
48	10850600622	11891646554	6556375766	10994976968	10884021968	11663001147	11739681470	11695535505	10799799622
40	11033620641	12292701972	6567242693	11086191332	10997389526	11714033641	11892952144	11838616268	10896867513
36	11008221967	12500420761	6630310010	11187254471	11106279759	11795852892	11972243794	12126722425	10963561615
32	11116781852	12267325019	6683894481	11345317717	11206647981	11736240778	12049484528	12034260373	11081463016
28	11290263828	12195127751	6757664714	11385625781	11258295168	11697180002	12005379542	12019752906	11288458310
24	11475546238	11884344224	6796586502	11305314756	11116623728	11685711386	11822731820	12023326759	11388039705
20	11224852560	11292544020	6777036240	10904297657	10747760353	11646661753	11672726440	?	11045338822
16	10829129507	10284357942	6667108291	10348611321	10093161987	11327740443	11208793451	?	10444170837
12	9420469805	9088093489	6360721370	9263301944	9040176412	10096828805	9984757791	?	9475823880
10	8664042378	8292960061	6072041032	8537514516	8266898557	9509208591	9280755037	?	8499306558
8	7481289176	7076017122	5608690601	7271640774	7159848703	8213752489	7915901827	?	7333303410
6	6113366421	5712415738	5008116468	5945793344	5885970847	6908507964	6406255849	?	5979495436
5	5347241484	4950755653	4559320971	5211397300	5147556688	6102819114	?	?	5279913012
4	4516367973	4171394518	4000526631	4409668071	4362983810	5155504007	?	?	4464359082
3	3531078686	3239899601	3246558586	3429985933	3433104937	4035945486	?	?	3475052196
2	2451575186	2417779080	?	?	?	?	?	?	?
1	?	?	?	?	?	?	?	?	?

Подключение 4 SSD через коммутатор PCIe 3 x8 (24688682029056) - ровная линия 6800 MiB/s (7.13 GB/s = 89% PCIe 3.0 x4) при 64-24 потоках.

Подключение 8 SSD через коммутатор PCIe 3 x8 (50060687515648) - ровная линия 6800 MiB/s (7.13 GB/s = 89% PCIe 3.0 x4) при 64-40 потоках, слишком длинный хвост на одном из каталогов (cads, 35 минут CPU) - получается неинформативно.

Отформатировал 4 SSD обратно под 512 байт вместо 4096, файлы легли как-то по-другому, 24714205741056 байт (на 1134592 байт меньше, чем в прошлый раз). Потеря 1%.

Отформатировал SSD обратно под 4096 байт в блоке и собрал LV по-прежнему: "lvcreate --name fast --extents 100%FREE --stripes 4 --stripesize 1m --type striped test8left"; ra auto = 8 MiB; optimal_io_size = 4194304; minimum_io_size = 1048576. Собрал ext4: "mkfs.ext4 -E [stride=256,stripe_width=1024,]lazy_itable_init=0,lazy_journal_init=0 [-G 128 -J size=2048] -L test4fast -v -O 64bit,dir_index,dir_nlink,extent,ext_attr,filetype,flex_bg,has_journal,huge_file,large_file,meta_bg,sparse_super /dev/test8left/fast"; параметры stride=256,stripe_width=1024 устанавливаются автоматически; монтирование: [stripe=1024,]nodiratime,relatime,journal_checksum[,journal_async_commit,data=writeback],delalloc,nobarrier,noauto. Попробовал залить файлы с medium на fast в 24 потока tar_copy_all.sh ("tar -C /test4medium/$1 -H posix -cf - . | tar -C /test4fast/$1 -xf -"; по-прежнему 20% idle; поначалу 3-4GB/sec вместо 5-6 для XFS, а потом падала до катастрофических 150 MB/sec (один из - kworker/u66:1+f - залипал на 100% CPU). Убрал "-G 128 -J size=2048" ("mkfs.ext4 -E lazy_itable_init=0,lazy_journal_init=0 -L test4fast -v -O 64bit,dir_index,dir_nlink,extent,ext_attr,filetype,flex_bg,has_journal,huge_file,large_file,meta_bg,sparse_super /dev/test8left/fast") и "journal_async_commit,data=writeback" ("nodiratime,relatime,journal_checksum,delalloc,nobarrier,noauto"), использовал nocache при копировании, скорость почти равномерно держалась на 2.5 GB/s (50% idle, 38% sy, 1% us, 1% hi), но в самом конце повторилась история с kworker/u65:2+f. Занятый объём - 24707263184896 (на 7GB - 0.02% - меньше, чем XFS).

Поставил e2fsprogs-1.46.5 в /usr/local (опции mkfs по умолчанию: dir_index,ext_attr,filetype,large_file,resize_inode,sparse_super; blocksize = 4096, inode_size = 256, опции mkfs.ext4 по умолчанию: 64bit,dir_nlink,extent,extra_isize,flex_bg,has_journal,huge_file,metadata_csum; опции монтирования по умолчанию: acl,user_xattr). Собрал ext4: "/usr/local/sbin/mkfs.ext4 -E lazy_itable_init=0,lazy_journal_init=0 -G 128 -i 262144 -I 1024 -L test4fast -m 0 -v -O inline_data,metadata_csum_seed,sparse_super2". Предоставлено на 100ГБ меньше места, чем XFS. Занятый объём - 24569870823424 (свободного места ровно столько сколько было при XFS). Монтирование: stripe=1024,nodiratime,relatime,journal_checksum,delalloc,nobarrier,dioread_nolock,noauto. Скорость заполнения почти половину объёма равномерно держалась на 3.8 GB/s (60% sy, 1% us, 1% hi), затем упала - в среднем 1.6 GBps, с провалами до 100 MB/s, при этом разные kworker/u6*:*+f загружают ядро на 100% каждый. Для справки: XFS обеспечивает среднюю скорость записи 5.75 GBps. nodiscard ничего не изменил. Ограничение dirty_background_bytes и dirty_bytes ничего не меняет. Отключение журнала (^has_journal) значительно увеличивает скорость записи - почти 2/3 равномерно держалась на 5.2GB/s затем упала (временами до 900MB/s) в среднем 1.97GB/s. Включение fast_commit и при монтировании commit=60,max_batch_time=30000,min_batch_time=10000 не улучшают ситуацию. Короткий отдых не приводит в чувство (kworker некоторое время грузит ЦП на 100% и даже добавляет 20ГБ в cache "из воздуха"). 3 в drop_caches не приводит в чувство. Монтировать с nodelalloc не надо. Монтирование с nombcache ничего не даёт.

При первом проходе tar_null загрузка ЦП - 90% (relatime?).

inline ускоряет на малых потоках на 7-15%.

nocache даёт чудесную горизонтальную линию на 12.5GB/s и хвост для несоразмерно длинного каталога (cads). Замедляет при небольшом количестве потоков.

Увеличение inode_readahead_blks до 64 немного уменьшает пропускную способность.

Сборка с bigalloc,fast_commit - скорость наполнения равномерно держится на 3.82 GBps пока не закончилось место (60-75% sy), при этом разные kworker/u6*:*+f загружают ядро на 100% каждый, было израсходовано на 4% (900GB) больше места и не поместилось 0.3% файлов (возможно, что самых больших, но не менее 180GB - 0.7%).

Переход от LVM к mdadm (статистика mdadm завышенная; /sys/block/md127/queue/iostats=0?)

mdadm --create /dev/md/test4left --verbose --raid-devices=4 --level=stripe --chunk 1024K --name=test4fast /dev/nvme{8,9,22,23}n1
mkfs.xfs -f -L fast -m finobt=1 -d su=1m,sw=4 -l su=256k,lazy-count=1 /dev/md/test4left

Попробовал RAID-5 с помощью mdadm

mdadm --create /dev/md/test4fast --verbose --raid-devices=4 --level=raid5 --chunk 1024K --name=test4fast /dev/nvme{8,9,22,23}n1
mdadm: layout defaults to left-symmetric
mdadm: automatically enabling write-intent bitmap on large array

Скорость синхронизации по умолчанию равна 200 МБ/сек, попробуем увеличить

echo 3000000 > /sys/block/md127/md/sync_speed_max

Упираемся в 100% ЦП на скорости 619 MB/сек! А где же обещанное в dmesg счастье (37683 MB/s для raid-6)? Пробовал /sys/block/md127/md/sync_force_parallel, 16384 в /sys/block/md127/md/stripe_cache_size (было 256), "blockdev --setra 65536 /dev/md127" (было 12288), отключение /sys/block/md127/md/safe_mode_delay, 16384 в /sys/block/md127/md/stripe_cache_size (было 256). Немного помогает 4 в /sys/block/md127/md/group_thread_cnt - увеличивает скорость до 1300 MB/s, но маленькими кусочками (150k IOPS на устройство), увеличение group_thread_cnt разбивает запросы ещё меньше (12 KB, 200k IOPS) и скорость не увеличивается.

mkfs.xfs -f -L fast -m finobt=1 -d su=1m,sw=3 -l su=256k,lazy-count=1 /dev/md/test4fast

Файловая система получилась на четверть меньше, т.е. сравнивать результаты напрямую нельзя, скорость наполнения равномерно держится на 1.5 - 1.9GB/s,

потоков	HT	mdadm raid5	mdadm raid5 resync	mdadm raid6 resync	lvm raid5	?	?	?	?
64	10777033988	9557700554	9600143409	8712255726	9045223070	?	?	?	?
48	10850600622	9998207655	10087072451	9155182703	9395765509	?	?	?	?
40	11033620641	10102877404	10130582011	9227696188	9518319597	?	?	?	?
36	11008221967	10174858143	10177991092	9321900780	9469665817	?	?	?	?
32	11116781852	10225158665	10235542678	9314110789	9593739027	?	?	?	?
28	11290263828	10301969590	10288425896	9376309568	9745739572	?	?	?	?
24	11475546238	10409148516	10486606264	9466242857	9670626264	?	?	?	?
20	11224852560	10202218392	10249535183	9457929131	9664834453	?	?	?	?
16	10829129507	9657828868	9659875259	9382985330	?	?	?	?	?
12	9420469805	9055618124	8988249112	8518060717	?	?	?	?	?
10	8664042378	8261678001	8167836163	7769460909	?	?	?	?	?
8	7481289176	7209297339	?	7028473783	?	?	?	?	?
6	6113366421	5984612982	?	5936716754	?	?	?	?	?
5	5347241484	5247868964	?	5179325438	?	?	?	?	?
4	4516367973	4392369536	?	4349553703	?	?	?	?	?
3	3531078686	3445659723	?	3406289924	?	?	?	?	?
2	2451575186	2406675471	?	2394484016	?	?	?	?	?
1	?	?	?	?	?	?	?	?	?

Попробовал вариант без bitmap (16374657409024 байт; скорость наполнения равномерно держится на 1.9 - 2.1GB/s)

mdadm --create /dev/md/test4fast --bitmap=none --verbose --raid-devices=4 --level=raid5 --chunk 1024K --name=test4fast --consistency-policy=resync /dev/nvme{8,9,22,23}n1
mkfs.xfs -f -L fast -m finobt=1 -d su=1m,sw=3 -l su=256k,lazy-count=1 /dev/md/test4fast
echo 3000000 > /sys/block/md127/md/sync_speed_max
echo 4 > /sys/block/md127/md/group_thread_cnt
echo 1 > /sys/block/md127/queue/iostats # статистика чтения всё равно завышена
дождаться завершения синхронизации

Массив с маленьким stripe ведёт себя неустойчиво - скорость наполнения равномерно держится на 2.2-2.3GB/s, потом падает до 1.2GB/s

mdadm --create /dev/md/test4fast --bitmap=none --verbose --raid-devices=4 --level=raid5 --chunk 64K --name=test4fast --consistency-policy=resync /dev/nvme{8,9,22,23}n1
mkfs.xfs -f -L fast -m finobt=1 -d su=64k,sw=3 -l su=16k,lazy-count=1 /dev/md/test4fast
echo 3000000 > /sys/block/md127/md/sync_speed_max
echo 4 > /sys/block/md127/md/group_thread_cnt
echo 1 > /sys/block/md127/queue/iostats # статистика чтения всё равно завышена
echo $[16*1024] > /sys/block/md127/md/stripe_cache_size # никакого толка
дождаться завершения синхронизации

Вариант с внешним и внутренним журналом исследовать не стал.

Массив raid6 без bitmap (12427501346816 байт; скорость наполнения равномерно держится на 1.5-1.8GB/s (средняя 1.58, 22% sy, 1.2% hi)

mdadm --create /dev/md/test4fast --bitmap=none --verbose --raid-devices=4 --level=raid6 --chunk 1024K --name=test4fast --consistency-policy=resync /dev/nvme{8,9,22,23}n1
mkfs.xfs -f -L fast -m finobt=1 -d su=1m,sw=3 -l su=256k,lazy-count=1 /dev/md/test4fast
echo 3000000 > /sys/block/md127/md/sync_speed_max
echo 12 > /sys/block/md127/md/group_thread_cnt # для raid6 полезно больше 4 - 1.6GB/s (больше, чем для raid5), 5% hi, 170k/120k IOPS
echo 1 > /sys/block/md127/queue/iostats # статистика чтения всё равно завышена
# echo $[16*1024] > /sys/block/md127/md/stripe_cache_size - упала скорость синхронизации
дождаться завершения синхронизации

Попробовал RAID-5 с помощью LVM (lvmraid(7); получается много блочных устройств, посмотреть : "lvs -a")

mdadm --zero-superblock /dev/nvme{8,9,22,23}n1
pvcreate  /dev/nvme{8,9,22,23}n1
vgextend test8left /dev/nvme{8,9,22,23}n1
lvcreate --name fast --extents 100%FREE --stripes 3 --stripesize 1m --type raid5 --maxrecoveryrate 8G test8left /dev/nvme{8,9,22,23}n1

lrwxrwxrwx 1 root root       8 апр  3 15:27 test8left-fast -> ../dm-13
lrwxrwxrwx 1 root root       7 апр  3 15:27 test8left-fast_rimage_0 -> ../dm-6
lrwxrwxrwx 1 root root       7 апр  3 15:27 test8left-fast_rimage_1 -> ../dm-8
lrwxrwxrwx 1 root root       8 апр  3 15:27 test8left-fast_rimage_2 -> ../dm-10
lrwxrwxrwx 1 root root       8 апр  3 15:27 test8left-fast_rimage_3 -> ../dm-12
lrwxrwxrwx 1 root root       7 апр  3 15:27 test8left-fast_rmeta_0 -> ../dm-5
lrwxrwxrwx 1 root root       7 апр  3 15:27 test8left-fast_rmeta_1 -> ../dm-7
lrwxrwxrwx 1 root root       7 апр  3 15:27 test8left-fast_rmeta_2 -> ../dm-9
lrwxrwxrwx 1 root root       8 апр  3 15:27 test8left-fast_rmeta_3 -> ../dm-11

дождаться завершения синхронизации
mkfs.xfs -f -L fast -m finobt=1 -d su=1m,sw=3 -l su=256k,lazy-count=1 /dev/test8left/fast

Синхронизируется неспешно - 400/100 МБ/сек с каждого устройства - 1.1GB/s (1 поток mdX_raid5 90%). Чувствуется недоделанность - как поменять max rate, как узнать текущий rate, приостановить? Скорость наполнения равномерно держится на 750MB/s.

LVM отказался делать raid6 из 4 томов. Не очень-то и хотелось! Всё равно RAID-6 ненастоящий - не умеет при проверке определять какой том предоставил неверные данные и чинить.

Серия Intel (Solidigm) D7-P5620

Серия Intel (в дальнейшем Solidigm от SK hynix) D7-P5620 расчитана на нагрузку 3 DWPD (методика не указана, гарантия 5 лет), поставляются в объёмах 12.8 TB (SSDPF2KE128T1), 6.4 TB (SSDPF2KE064T1), 3.2 TB и 1.6TB. Изготавливаются на базе 144-уровнего 3D TLC SK hynix. Имеются варианты с шифрованием и безопасной очисткой (OPAL 2.0 - SIE, SED, SED FIPS). Поставляется в формате U.2 (SFF/2.5", 15 мм толщиной) под PCIe 4.0 x4, NVME 1.4, NVMe-MI 1.1. Обещается защита от внезапного отключения питания (конденсатор с самотестированием) и сквозная защита данных (end-to-end). Размер сектора: 512, 520, 4096, 4104 или 4160 байт. ?Возможен выбор из 6 режимов потребления (12 В) вплоть до 20 Вт (?в реальности устройство предлагает до 27.5 Вт), в ожидании - от 5 Вт. Обещается производительность последовательных операций до 7100/3700 MB/s (в другом месте 7100/4200 при 128 kB записях), случайных - до 1000/374 kIOPS (в другом месте 1100/390 kIOPS), задержки чтения/записи - 75/15 мкс (99.9999%), UBER 1e-17, silent corruption 1e-25. Из интересного о контроллере (nvme id-ctrl -H /dev/nvme8):

mdts : 5 # 2^5*4k = 128k - максимальный размер передаваемых данных
ctratt: поддерживаемые наборы команд отсутствуют
oacs: поддерживаемые наборы команд (Self-test, управление пространствами имён, загрузка прошивки, форматирование)
frmw: работа с прошивкой (4 слота, активация без сброса)
nn : 128 # количество пространств имён
lpa: постоянный журнал, телеметрия, расширенный журнал, журнал эффектов, нет SMART для пространств имён
apsta: автономное питание не поддерживается?
sanicap: режимы зачистки - стирание блоков, шифрованное стирание
nn: 64 # количество пространств имён
oncs: поддерживаемые наборы команд (отметка времени, сохранить и выбрать, запись нулей, управление наборами данных, запись немыслимого)
fuses: нет поддержки слитых сравнения и записи
vwc: отсутствие теряемого кеша записи
subnqn: NQN подсистемы (NQN изготовителя nqn.2022-10.com.intel, серийный номер)
ps 0: максимальное потребление 25 Вт (ps 1: 15 Вт, ps 2: 11 Вт), потребление в покое 5.06 Вт, потребление в активном состоянии 25 Вт

Из интересного о свойствах пространств имён (nvme id-ns -H /dev/nvme0n1):

nsfeat: отсутствует выделение по запросу (thin))
nmic: отсутствует multipath
rescap: никаких режимов эксклюзивного доступа
fpi: не поддерживается индикатор прогресса форматирования

форматы LBA:

LBA Format  0 : Metadata Size: 0   bytes - Data Size: 512 bytes - Relative Performance: 0x2 Good (in use)
LBA Format  1 : Metadata Size: 8   bytes - Data Size: 512 bytes - Relative Performance: 0x2 Good 
LBA Format  2 : Metadata Size: 0   bytes - Data Size: 4096 bytes - Relative Performance: 0x2 Good 
LBA Format  3 : Metadata Size: 8   bytes - Data Size: 4096 bytes - Relative Performance: 0x2 Good 
LBA Format  4 : Metadata Size: 64  bytes - Data Size: 4096 bytes - Relative Performance: 0x2 Good

Серия D7-5520 для интенсивного чтения (1DWPD) до 15.36 TB. Обзор.

Серия D7-5810 (SLC 144L) для интенсивной записи (50 DWPD), U.2, 800GB и 1600 GB.

Тестирование многопоточного восстановления файлов (bacula)

2 Intel Xeon Gold 6354 (18 ядер @ 3.0/3.6 GHz)
512 GB RDRAM 3200 (16 каналов по 13 ГБ/сек)
BIOS и ОС настроены на полный performance (производительность - Performance; Uncore Frequency Scaling - выключить; Turbo Boost включить, а energy efficient turbo - выключить; Hardware P-States - None; Speed Select (Base) и cTDP (Nominal); C-States и C1E выключить; память в режиме ADDDC - выключить)
HT - выключить
8 SSD подключены напрямую PCIe 4.0 x4
Rocky Linux 8.9, родное ядро
mitigations=off selinux=0 processor.max_cstate=1 intel_idle.max_cstate=0 nosmt no5lvl iommu=noptm tsx=on
performance в scaling_governor и "x86_energy_perf_policy performance"
планировщик ввода-вывода none
pvcreate /dev/nvme?n1
vgcreate SSD /dev/nvme?n1
lvcreate --name full --extents 100%FREE --stripes 8 --stripesize 1m --type striped SSD
mkfs.xfs -K -L full -s size=4096 -m crc=1,finobt=1,reflink=0 -d su=1m,sw=8 -i maxpct=1,projid32bit=1 -l su=256k,lazy-count=1 /dev/SSD/full
монтирование: nodiratime,relatime,attr2,nodiscard,logbufs=8,logbsize=256k,filestreams,inode32,noquota (systemctl daemon-reload)
советы из tuned: vm/swappiness = 10, vm/dirty_ratio = 10 (vm.dirty_bytes = 400000000), vm/dirty_background_ratio = 3 (vm.dirty_background_bytes = 100000000), kernel.sched_migration_cost_ns = 5000000, kernel.sched_min_granularity_ns = 10000000; vm.min_free_kbytes = 2097152
потоки bacula "restore all done"
- 1 поток - 577 MB/s (LZO в 1 поток - 100% CPU)
- 2 потока - 1000-1100 MB/s
- 3 потока - 1600 MB/s
- 4 потока (3+1) - 2400-2600 MB/s
- 5 потоков (3+2) - 3100 MB/s
- 6 потоков (3+3) - 3700-4400 MB/s (утилизация SSD - 68%)

Тестирование многопоточного копирования файлов (tar_copy_all.sh) на себя (4.6 TB, 19 миллионов файлов, в промежутках umount/mount):

потоки tar_copy_all.sh

1: 400-1600 MB/s
2: 1100-2500 MB/
3: 1600-3200 MB/s
4: 2200-3800 MB/s
6: 3300-4300 MB/s
8: 4000-4500 MB/s
16: 4500-4800 MB/s (утилизация SSD - 95%)
40: 4500-4800 MB/s (8000/5500 IOPS на устройство)

Ссылки

The SSD Relapse: Understanding and Choosing the Best SSD (завершение трилогии о SSD на AnandTech)
объяснение необходимости команды TRIM
Should Filesystems Be Optimized for SSD’s (ext4)
wiper.sh discussion thread (Linux TRIM tool) (wiper-2.0 and hdparm-9.25 are now available from sourceforge.)
How to Damage a FLASH Storage Device
ATA SECURITY ERASE
HDDErase
Block layer discard requests (изменения в ядре Linux для команды Trim)
SSD’s, Journaling, and noatime/relatime (насколько журнал и atime увеличивают нагрузку на SSD)
Long-term performance analysis of Intel Mainstream SSDs (замедление SSD со временем)
падение скорости записи в результате тестирования
измерение "выносливости" SSD
влияние размера запасной области на устойчивость скорости записи на SSD
тест на выживаемость (300TB)
тест на выживаемость (600TB)
Надёжность SSD: результаты ресурсных испытаний (и как они умирают, 2018)
Analysis of SSD Reliability during power-outages (2013)
Flash Reliability in Production: The Expected and the Unexpected (Google, 2016)
Intel DC P4500 и DC P4600 (32-layer 3D TLC NAND, 12 каналов, PCIe HHHL (от 2 до 4TB) или 2.5" 15mm U.2 (от 1.6 до 3.2 TB), PCIe 3.1 x4 NVMe 1.2, последовательное чтение/запись до 3280/2100 MB/сек (ресурс 4DWPD), случайное - до 700k/68k или 257k IOPS (ресурс 0.7 или 2.9 DWPD))
Intel DC P4501 (7 mm U.2, меньше потребление и скорость)
Flash Reliability in Production: The Expected and the Unexpected (исследование Google, 2016)
What You Need to Know About U.3
U.3 (SFF-TA-1001)
Linux Performance Tuning: Dealing with Memory and Disk IO
SSD SMART (Western Digital, Seagate, Crucial)

Карта сайта

News

Автора!

Bog BOS: hardware: SSD (Solid-State Drive)