Bog BOS: Файловая система ZFS

Последние изменения:
2025.01.24: sysadmin: rsyslog (статья и пример центрального коллектора переработаны)
2024.11.22: sysadmin: systemd-journald (централизованное хранение)

Последнее изменение файла: 2025.04.16
Скопировано с www.bog.pp.ru: 2025.10.22

Bog BOS: Файловая система ZFS

Файловая система ZFS рассматривается с целью организации крупного архива под Linux (CentOS) как альтернатива btrfs.

Особенности
Архитектура
История и совместимость
ZFS on Linux (OpenZFS)
Параметры модуля ядра spl для ZFS on Linux
Параметры модуля ядра zfs для ZFS on Linux
Пул хранения (zpool)
Кеш в памяти - ARC
Кеш второго уровня на SSD - L2ARC
Управление синхронной записью - ZIL
Наборы данных: файловая система и том
Тестирование производительности сжатия
Дедупликация
Утилита zdb
Утилиты сбора статистики
Прочие утилиты
Выделенный сервер архива без дедупликации
Выделенный сервер архива с дедупликацией
Выделенный сервер архива с дедупликацией настроенный
Выделенный сервер архива с дедупликацией, версия 3
Выделенный сервер архива с дедупликацией, версия 4
Основные изменения в версиях
Ссылки

Особенности

ZFS объединяет управление пулом устройств (zpool: избыточность, контрольные суммы, выделение места, дедупликация) и наборами данных (dataset - блочные устройства и файловые системы POSIX), zfs (строчными буквами): снимки, клоны, иерархические контрольные суммы, сжатие. Особый упор сделан на сохранность данных, точнее на обнаружение их повреждения. В частности, рекомендуется использовать ОП с ECC, т.к. прочие источники повреждений устранены. Развитие идёт в сторону управления корзинами и устройствами хранения: управление индикацией, питанием, заливка прошивок.

лицензия - CDDL (Common Development and Distribution License), несовместимая с GPL, что не даёт пуристам включить её в ядро Linux
zpool:
- самостоятельное управление томами и выделением места - пулы из vdev различного типа (JBOD, RAID0, зеркало, тома с 1, 2 и 3 чётностями - RAID-Z) и различные алгоритмы выделения
- кеширование в памяти (ARC), кеширование чтения на быстром устройстве (L2ARC)
- кеширование синхронной записи без аппаратной поддержки (батарейки) на быстром устройстве постоянного хранения (SLOG, ZIL device, ZFS Intent Log device)
- возможность назначить vdev для хранения определённого типа данных (метаданные, индекс дедупликации, маленькие файлы) на SSD
- замена устройства (autoreplace), добавление и удаление виртуального устройства vdev из пула (zpool remove)
- устройства хранения горячей замены для автоматической починки vdev с избыточностью
- дедупликация на ходу (требует много ОП под индекс блоков DDT, ключом индекса является контрольная сумма блока после сжатия и шифрования, так что для правильной работы системы дедупликации нельзя менять параметры сжатия, шифрования и вычисления контрольной суммы)
- использование TRIM и UNMAP
- ZFS умеет включать буфер записи диска
zfs:
- очень большие лимиты на размер файловой системы, размер файла, количество файлов в каталоге
- максимальная длина имени файла - 255 байт
- CoW с транзакциями
- можно задать количество хранимых копий метаданных (по умолчанию дважды, а блоки состояния пула - трижды) и особо ценных данных на уровне файловой системы в дополнение к избыточности на уровне томов, zfs старается разнести копии подальше
- файловая система в дополнение к избыточности томов ведёт иерархические контрольные суммы данных и метаданных (Fletcher-2, Fletcher-4, SHA-256, SHA-512, Skein, Edon-R, BLAKE3), которые хранятся отдельно от самих данных
- иерархия - при изменении данных в блоке меняется контрольная сумма блока, которая хранится в метаданных, соответственно меняется контрольная сумма самих метаданных, которая хранится в метаданных более высокого уровня и т.д. до самого корня файловой системы
- обеспечивается непрерывная проверка и прозрачное исправление благодаря копиям и избыточным данным от системы управления томами; чтобы проверить контрольную сумму блока его необходимо прочитать целиком даже если нужен только 1 байт, а блок размазан по всем дискам vdev - т.е. добавление дисков в vdev не увеличивает IOPS чтения в отличие от обычных RAID-5/6 (зато обеспечивается обнаружение повреждения данных)
- есть scrub (проверка контрольных сумм по всей иерархии, работает на смонтированной файловой системе, рекомендуется запускать еженедельно/ежемесячно) и resilver (лечение)
- снимки (только чтение) и клоны (чтение и запись), репликация снимков (send/receive) - полная и инкрементальнвя
- последовательные группы транзакций группы (txg) и возможность откатиться к предыдущему состоянию пула при ошибках
- прозрачное сжатие на ходу (zle, lzbj, lz4, gzip, zstd)
- дополнительный потоки (forks, расширенные аттрибуты)
- права доступа: POSIX и NFSv4 ACLs (NTFS)
- квотирование по пользователям, группам и проектам
- шифрование (aes-256-ccm)
критика:
- требуется много ОП, необходимо заранее рассчитывать размер ARC и L2ARC, особенно при использовании дедупликации
- последние 10% места отдаёт очень неохотно
- использование RAID контроллера не даёт воспользоваться многими возможностями восстановления, так что разработчики рекомендуют использование отдельных дисков (режимы HBA, JBOD, passthrough); к сожалению, добавление устройств хранения в vdev не приводит к увеличению скорости при параллельных запросах, а использование vdev с малым количеством устройств хранения нерационально использует пространство хранения
- отсутствует fsck, хотя можно смонтировать на одну из автоматически созданных точек; ещё есть zdb ;)
- отсутствует дефрагментатор
- отсутствует ребалансировка после добавления устройства в пул
- не качайте торренты CoW на файловой системе и не держите swap в ZFS (технически исправлено, но лучше не надо)
- снимки в btrfs удобнее - линейная по времени цепочка неизменяемых снимков в zfs и дерево в btrfs; снимки btrfs можно изменять (удаление громадных файлов в снимках btrfs освобождает место, а в клонах zfs - нет)
- отсутствует экспорт всех снимков при экспорте корня (как в btrfs) или преобразования файловой системы в подкаталог
- в реализации ZFS on Linux система выделения памяти ядра и ZFS плохо связаны, возможны зависания по недостатку памяти, mmem() не умеет пользоваться кешем ZFS (а как им пользоваться, если он сжат и дедуплицирован?)
- O_DIRECT?
- разработчики явно не ожидали, что ZFS будут использовать в качестве корневой файловой системы
- в реализации ZFS on Linux неисправимый сбой vdev ведёт к добровольной перезагрузке, так что идея с автоматическим исправлением сбоев используя контрольные суммы файловой системы для выбора правильных копий хороша, но реализация не вызывает доверия
- модуль ядра zfs имеет более 300 параметров
- репликация требует полной совместимости исходной и целевой файловой системы, чего невозможно добиться если вы хоть как-то используете целевую систему

Опробовал устойчивость. Сделал (OpenZFS/ZFSonLinux 0.6 и 0.8) пул из 3 vdev, которые в свою очередь представляют собой массивы RAID-6 над LSI Logic MegaRAID SAS 9266-8i; выдернул 3 диска из одного из массивов, в результате чего он перешёл в режим Offline; попытался считать обещанные доступные файлы из zfs. Не тут-то было (особенно понравилось про отсутствие привилегий - исправлено после 0.7.0-rc3), ни прочитать, ни удалить, ни размонтировать, только перезагрузиться:

kernel: WARNING: Pool 'tm_small' has encountered an uncorrectable I/O failure and has been suspended.

zpool status -v 
  pool: tm_small
 state: UNAVAIL
status: One or more devices are faulted in response to IO failures.
action: Make sure the affected devices are connected, then run 'zpool clear'.
   see: http://zfsonlinux.org/msg/ZFS-8000-HC
  scan: scrub repaired 0 in 57h52m with 0 errors on Mon Mar 20 11:34:28 2017
config:

	NAME                                      STATE     READ WRITE CKSUM
	tm_small                                  UNAVAIL     64     0     0  insufficient replicas
	  scsi-3600605b008ca05c01fc0c51340366923  ONLINE       0     0     0
	  wwn-0x600605b008ca052020111fe9d78370c6  ONLINE       0     0     0
	  wwn-0x600605b008ca0500202630e6fda1c4eb  FAULTED      1     1     0  too many errors
	cache
	  l2arc                                   ONLINE       0     0     0

errors: List of errors unavailable (insufficient privileges)

zpool set failmode=continue tm_small
cannot set property for 'tm_small': pool I/O is currently suspended

zpool clear tm_small
cannot clear errors for tm_small: I/O error

но счётчик ошибок обнулился

zpool status -v
  pool: tm_small
 state: UNAVAIL
status: One or more devices are faulted in response to IO failures.
action: Make sure the affected devices are connected, then run 'zpool clear'.
   see: http://zfsonlinux.org/msg/ZFS-8000-HC
  scan: scrub repaired 0 in 57h52m with 0 errors on Mon Mar 20 11:34:28 2017
config:

	NAME                                      STATE     READ WRITE CKSUM
	tm_small                                  UNAVAIL      0     0     0  insufficient replicas
	  scsi-3600605b008ca05c01fc0c51340366923  ONLINE       0     0     0
	  wwn-0x600605b008ca052020111fe9d78370c6  ONLINE       0     0     0
	  wwn-0x600605b008ca0500202630e6fda1c4eb  UNAVAIL      0     0     0
	cache
	  l2arc                                   ONLINE       0     0     0

errors: 74 data errors, use '-v' for a list
# а с "-v" так:
errors: List of errors unavailable (insufficient privileges)

zpool scrub -s tm_small
cannot cancel scrubbing tm_small: pool I/O is currently suspended

zpool export tm_small
cannot export 'tm_small': pool I/O is currently suspended

rmmod zfs
rmmod: ERROR: Module zfs is in use

zfs umount tm_small
cannot open 'tm_small': pool I/O is currently suspended

zpool reopen tm_small
cannot reopen 'tm_small': pool I/O is currently suspended

zpool destroy -f tm_small # в Linux "umount -f" не работает
umount: /time_machine: target is busy.
        (In some cases useful info about processes that use
         the device is found by lsof(8) or fuser(1))
cannot unmount '/time_machine': umount failed
could not destroy 'tm_small': could not unmount datasets

перезагрузка (на удивление удалась)

zpool status -x
  pool: tm_small
 state: UNAVAIL
status: One or more devices could not be used because the label is missing 
	or invalid.  There are insufficient replicas for the pool to continue
	functioning.
action: Destroy and re-create the pool from
	a backup source.
   see: http://zfsonlinux.org/msg/ZFS-8000-5E
  scan: none requested
config:

	NAME                                      STATE     READ WRITE CKSUM
	tm_small                                  UNAVAIL      0     0     0  insufficient replicas
	  scsi-3600605b008ca05c01fc0c51340366923  ONLINE       0     0     0
	  wwn-0x600605b008ca052020111fe9d78370c6  ONLINE       0     0     0
	  wwn-0x600605b008ca0500202630e6fda1c4eb  UNAVAIL      0     0     0

zpool destroy -f tm_small
cannot destroy 'tm_small': no such pool or dataset

zpool list
NAME       SIZE  ALLOC   FREE  EXPANDSZ   FRAG    CAP  DEDUP  HEALTH  ALTROOT
tm_small      -      -      -         -      -      -      -  FAULTED  -

zpool labelclear /dev/disk/by-id/scsi-3600605b008ca05c01fc0c51340366923
zpool labelclear /dev/disk/by-id/wwn-0x600605b008ca052020111fe9d78370c6

zpool list -v
NAME   SIZE  ALLOC   FREE  EXPANDSZ   FRAG    CAP  DEDUP  HEALTH  ALTROOT
tm_small      -      -      -         -      -      -      -  FAULTED  -
  scsi-3600605b008ca05c01fc0c51340366923      -      -      -     16.0E      -      -
  wwn-0x600605b008ca052020111fe9d78370c6      -      -      -     16.0E      -      -
  wwn-0x600605b008ca0500202630e6fda1c4eb      -      -      -     16.0E      -      -

кеш бессмертен:

zdb -C
tm_small:
    version: 5000
    name: 'tm_small'
    state: 0
    txg: 755843
    pool_guid: 17750235030682792318
    vdev_tree:
        type: 'root'
        id: 0
        guid: 17750235030682792318
        create_txg: 4
        children[0]:
            type: 'disk'
            id: 0
            guid: 5817601266406712916
            path: '/dev/disk/by-id/scsi-3600605b008ca05c01fc0c51340366923-part1'
...

zpool create -f ... tm_small scsi-3600605b008ca05c01fc0c51340366923 cache /dev/system/l2arc
cannot create 'tm_small': pool already exists

rmmod zfs
mv /etc/zfs/zpool.cache ...
modprobe zfs

Архитектура

ZFS (прописными) объединяет в единое целое управление пулом свободного места zpool и файловую систему zfs (строчными).

Пул (zpool) представляется в виде дерева, корнем которого является корневой vdev, который собирается из виртуальных блочных устройств vdev различных типов (vdev верхнего уровня) - обычное блочное устройство, зеркало (mirror), zraid{1,2,3} (подобие RAID массивов с 1, 2 или 3 контрольными суммами), кеш (L2ARC), запасной диск (spare) и журнал (log, SLOG для ZIL). Зеркало (2 и более) и zraid* собираются из vdev (утилиты умеют собирать только из блочных устройств).

Для ускорения работы используется кеш в памяти ARC и кеш чтения на выделенном устройстве (рекомендуется SSD) L2ARC.

Каждая операция записи является частью транзакции. Транзакция является атомарной операцией - она либо выполняется целиком, либо не выполняется вовсе. Каждая транзакция является частью группы транзакций (TXG, txg). Группы транзакций нумеруются последовательно. Группа транзакций может быть последовательно в одном из состояний (в каждом состоянии только одна группа в каждый момент времени): открыта, в покое (quiescing) или синхронизации (запись на диск). Транзакции добавляются в открытую группу, выполняются когда группа открыта или в покое. Группа закрывается когда достигнут предел по времени, объёму или требуется синхронизация (создание снимка и т.д.). Накопленные изменения пишутся на диск в состоянии синхронизации. Синхронизация может потребовать дополнительных изменений (например, в карте пространства при выделении новых блоков), т.е. требуется несколько проходов, после превышения лимита проходов ZFS откладывает освобождение и останавливает сжатие.

Для обеспечения синхронной записи применяется механизм ZIL и выделенное устройство для кеширования ZIL - SLOG.

Пул обеспечивает местом произвольное количество наборов данных (файловые системы zfs, тома, снимки и пр.). Файловые системы монтируются автоматически в точку "/имя-набора" (можно изменить в свойстве mountpoint), каталог создаётся автоматически.

Для набора данных можно создавать неизменяемые снимки, которые доступны по имени как файловые системы или тома. Снимки файловой системы автоматически монтируются при первом обращении к файлам. На базе снимков можно делать изменяемые клоны исходного набора данных, удалять исходный снимок нельзя на время жизни клона, можно поменять ролями исходый набор данных и его клон (promote) после чего удалить набор бывший исходным и ставшиий клоном. Кроме снимков (snapshot) можно делать отметки (bookmark) - привязываются к снимку, недоступны как файловые системы.

Наборы данных можно экспортировать по NFS, SMB и iSCSI (тома как блочные устройства).

Компоненты (слои), снизу вверх:

SPL (Solaris Porting Layer), для Linux
SPA (Storage Pool Allocator), организует физические диски в хранилище, выделяет место
DMU (Data Management Unit), транзакции ввода/вывода с обеспечением атомарности
ZVOL (ZFS Emulated Volume) и ZPL (ZFS POSIX Layer), трансляция операций над блочным устройством и файловой системой в операции DMU

История и совместимость, ZFS on Linux и OpenZFS

ZFS (торговая марка Oracle) разработана в Sun Microsystems (ныне Oracle), начало работ - 2001 год, включён в Solaris 10 в 2006.

Код открыт в 2005 (в рамках OpenSolaris) под лицензией CDDL, закрыт в 2010 (OpenSolaris форкнули в Illumos). Код разделился на ZFS Oracle и других.

Другие объединились под именем OpenZFS. Обеспечивает совместимость пулов хранения между реализациями. OpenZFS стал посредником для обмена кодом из Illumos/DelphixOS (2/3 исходных разработчиков ZFS ушли сюда после закрытия OpenSolaris), FreeBSD, OS X и ZFS on Linux (ZOL). В последующем оказалось, что Illumos фактически мёртв, FreeBSD использует код от OpenZFS, который в основном пополняется от ZOL. В результате ZOL перепаковали в OpenZFS.

В связи с якобы несовместимостью CDDL и GPL некогда была разработана FUSE реализация ZFS в Linux, покойная с 2016 года (ещё есть в EPEL6, но нет в EPEL7).

Первоначально ZFS имела (ZFS Oracle и сейчас имеет) версии формата на диске, затем OpenZFS приняла единую версию 5000 и систему флагов возможностей (feature flags) - фич. Предполагается, что реализация версии 5000 включает все возможности на момент закрытия OpenSolaris - ZVOL (ZFS Emulated Volume) версии 28 и ZPL (ZFS POSIX Layer) 5.

Фича пула (свойство пула с именем feature@название-фичи, полное имя - feature@org.zfsonlinux:имя, но можно сократить до "имя", если нет совпадений) может находиться в состоянии:

disabled (не будет использоваться, формат пула не преобразован)
enabled (будет, но формат пула пока не преобразован; вернуться в disabled нельзя)
active (используется, формат пула преобразован; некоторые фичи можно вернуть в enabled; требуется поддержка, чтобы импортировать пул для записи или чтения в отстуствии совместимости по чтению)

Преобразование пула происходит по команде "zpool upgrade" или при установке свойства в состояние enabled.

Пул с неподдерживаемыми фичами может быть импортирован, если фича не была активирована (свойство пула unsupported@название-фичи=inactive) или используется в режиме только чтения (свойство readonly) и фича такой импорт допускает (свойство пула unsupported@название-фичи=readonly).

Некоторые фичи зависят от других.

Свойство compatibility (zpool create -o compatibility=...) позволяет задать список совместимости:

off - все фичи разрешены
legacy - все фичи запрещены
список через запятую имён файлов в /etc/zfs/compatibility.d/ или /usr/share/zfs/compatibility.d/; файл содержит список фич через пробел или запятую (NL?); разрешены только фичи, содержащиеся во всех перечисленных файлах

Фичи пула (сравнение производительности алгоритмов вычисления контрольной суммы - /proc/spl/kstat/zfs/chksum_bench и /proc/spl/kstat/zfs/fletcher_4_bench):

allocation_classes (при использовании vdev особого типа - dedup или special - некоторые типы блоков пула могут выделяться исключительно из него (метаданные, таблица дедупликации); при заполнении блоки берутся с обычных устройств;
async_destroy (удаление набора данных в фоновом режиме, остаток в свойстве пула freeing, active только когда freeing не 0)
blake3 (разрешить использовать алгоритм хеширования BLAKE3 для контрольных сумм и дедупликации - "zfs set checksum=blake3 имя-датасета"; на порядок быстреее SHA-256)
block_cloning (использовать клонирование блоков для copy_file_range(2) - reflink в cp; в 2.2 идёт битва с ней)
bookmarks (требуется extensible_dataset; использовать отметки; команды "zfs bookmark снимок отметка" - отметка во времени для send/receive)
bookmark_v2 (требуется extensible_dataset и bookmarks, отметки большего размера, вспомогательная)
bookmark_written (требуется extensible_dataset и bookmarks и bookmark_v2; учитывать сколько места было использовано после создания отметки (written#имя-отметки)
class_of_storage (нет в OpenZFS)
device_rebuild (последовательная реконструкция после "zpool attach" и "zpool replace" вместо полного лечения; для проверки контрольных сумм отдельно запускается scrub; несовместимо с raidz)
device_removal (позволяет удалить vdev верхнего уровня из пула, уменьшая его размер - zpool remove)
draid (разрешить использование vdev типа draid - RAID-Z со встроенным распределённым пространством горячей замены)
edonr (разрешить использовать алгоритм хеширования Edon-R; требует extensible_dataset; nopwrite - данные не перезаписываются, если контрольная сумма не изменилась; на 350% быстрее SHA-256, добавляется случайная соль, что защищает от атаки на дедупликацию; требуется "zfs set dedup=edonr,verify")
embedded_data (сжатый до 112 байт блок умещается в указателе; противоречит тезису о разнесении данных и контрольных сумм)
empty_bpobj (уменьшение размера снимка и ускорение при создании большого - десятки тысяч - количества снимков)
enabled_txg (вспомогательная)
encryption (требует bookmark_v2, extensible_dataset)
extensible_dataset (вспомогательная)
filesystem_limits (позволяет ограничивать количество создаваемых снимков и файловых систем)
head_errlog (позволяет получать информацию о том, какой именно dataset повреждён)
hole_birth (требует enabled_txg; ускорение пересылки объектов с дырками для инкрементальной send/receive; долгая история борьбы с дефектом разработки, возможно незаконченная)
large_blocks (требует extensible_dataset; создаются блоки более 128 КиБ, до 16 МиБ, свойство recordsize)
large_dnode (требуется для задания dnode более 512 байт - свойство пула dnodesize)
livelist (при внесении изменений в клон ведётся список, который используется при удалении клона)
log_spacemap (требует spacemap_v2; журнал изменений пишется для группы транзакций - ускоряет случайную запись на сильно фрагментированный пул)
lz4_compress (позволить сжатие lz4; lz4 сжимает быстрее и лучше lzjb)
meta_devices (нет в OpenZFS)
multi_vdev_crash_dump (не используется в Linux)
obsolete_counts (уменьшает использование памяти при удалении устройства из пула; замедляет обычную работу?)
project_quota (требует extensible_dataset; квотирование по проектам, см. "zfs project")
raidz_expansion (будет в следующей версии OpenZFS)
redacted_datasets (требует extensible_dataset; возможность получать урезанный (redacted) поток)
redaction_bookmarks (требует bookmarks, extensible_dataset; возможность отправлять урезанный (redacted) поток)
redaction_list_spill (будет в следующей версии OpenZFS)
resilver_defer (откладывать лечение до завершения уже идущего)
sha512 (требует extensible_dataset; разрешить использовать урезанный алгоритм хеширования SHA-512/256 для контрольных сумм и дедупликации; на 50% быстрее SHA-256 на x86-64; нет в ZOL 0.6.5)
skein (требует extensible_dataset; разрешить использовать алгоритм хеширования Skein, на 80% быстрее SHA-256 на x86-64, добавляется случайная соль, что защищает от атаки на дедупликацию)
spacemap_histogram (собирается больше информации об организации свободного пространства в пуле; а зачем?)
spacemap_v2 (улучшает (?) работу с большими свободными пространствами)
userobj_accounting (требует extensible_dataset; квотирование по пользователям и группам)
vdev_properties (нет в OpenZFS)
vdev_zaps_v2 (ZAP (ZFS Attribute Processor) объект для корневого vdev; а зачем?)
wbc (нет в OpenZFS)
zilsaxattr (требует extensible_dataset; xattr=sa в ZIL)
zpool_checkpoint (позволяет создавать контрольные точки пула в дополнение к снимкам dataset; позволяет вернуться к прежнему состоянию всего пула)
zstd_compress (позволить сжатие zstd (250-500 MB/s на поток); новшество v2.0; загрузка не поддерживается)

zhack позволяет узнать состояние фич пула или поменять их "вручную"

zhack feature stat имя-пула # какие фичи задействованы для данного пула и в каком объёме

zhack feature stat bigpool # показаны ненулевые
for_read_obj:
	com.delphix:extensible_dataset = 9957
	org.illumos:lz4_compress = 1
	org.freebsd:zstd_compress = 6638
	org.open-zfs:large_blocks = 6637
	com.delphix:embedded_data = 1
for_write_obj:
	org.zfsonlinux:allocation_classes = 1
	com.delphix:spacemap_v2 = 1
	com.delphix:livelist = 3318
	com.delphix:log_spacemap = 1
	com.delphix:enabled_txg = 14
	com.delphix:empty_bpobj = 10262661
	com.delphix:spacemap_histogram = 28075
descriptions_obj:
enabled_txg_obj:
	com.datto:resilver_defer = 4
	com.delphix:redaction_bookmarks = 4
	com.delphix:livelist = 4
	org.freebsd:zstd_compress = 4
	com.delphix:spacemap_v2 = 4
	com.delphix:zpool_checkpoint = 4
	com.datto:encryption = 4
	com.delphix:enabled_txg = 4
	org.open-zfs:large_blocks = 4
	com.delphix:log_spacemap = 4
	com.delphix:redacted_datasets = 4
	org.illumos:lz4_compress = 4
	com.delphix:spacemap_histogram = 4
	org.zfsonlinux:large_dnode = 4

zhack feature enable -d описание [-r] имя-пула идентификатор-фичи # -r обещает безопасное использование в режиме только чтения
zhack feature ref # позволяет изменить счётчики использования

Предполагается (предполагалось?) введение фич ZPL.

ZFS on Linux (ныне OpenZFS)

ZFS on Linux - ZOL (под лицензией CDDL, якобы несовместимой с GPL) представлял собой адаптацию OpenZFS для самостоятельной установки на Linux (требуется самостоятельная сборка модуля ядра из исходных текстов). В дальнейшем ZOL был перепакован под именем OpenZFS. В Ubuntu 16.04 LTS устанавливается прямо бинарным модулем (и никто их не осудил), в Gentoo, Debian и ALT Linux через сборку с помощью DKMS. В дополнение к собственно ZFS поставляется SPL (Solaris Porting Layer). Для текущей версии (OpenZFS 2.2.2) необходимо ядро не менее Linux 3.10 (RHEL/CentOS 7).

Каждый раз при обновлении ядра модуль пересобирается через DKMS (Dynamic Kernel Module Support, автоматическая перекомпиляция модуля при обновлении ядра) или используется стабильный API через kABI-tracking kmod (Kernel Application Binary Interface, стиль ELRepo, родной пакет kmod, не требуется переустановка модулей при обновлении ядра, если модуль использует внешние символы из белого списка). Разработчики рекомендовали использовать kABI-tracking kmod, а DKMS оставить для пользователей нестандартных ядер и любителей внести свои изменения в исходные тексты ZFS. Однако в RHEL 7.3 стабильность API дала маху, в RHEL 7.4 история повторилась, в RHEL 7.5 ещё раз и в RHEL 7.6 ещё. С тех пор обеспечивается отдельный репозиторий для каждой минорной версии RHEL.

Для установки требуется добавить репозиторий yum от OpenZFS (для RHEL/CentOS 7 (поддерживается только последняя минорная версия). В связи со сломом совместимости kABI установка kABI на 7.3 (7.4) требует дополнительных действий: всё остановить, удалить и поставить заново. Ключ кладётся в /etc/pki/rpm-gpg/RPM-GPG-KEY-zfsonlinux, описание репозитория в /etc/yum.repos.d/zfs.repo

Создание зеркала репозитория yum (от 0.5GB до 4GB!), в последнее время тестовые ветки содержат предпоследнюю версию, а основные ещё более старую:

mkdir каталог
cd каталог
wget http://zfsonlinux.org/epel/zfs-release-2-3.el7.noarch.rpm # https://download.zfsonlinux.org/epel/zfs-release.el7_9.noarch.rpm
rpm2cpio zfs-release-2-3.el7.noarch.rpm | cpio -iudv # zfs-release.el7_9.noarch.rpm
удалить кэш yum - /var/tmp/yum-ИмяПользователя-КакойтоКод
mkdir repo
cd repo
reposync -c ../etc/yum.repos.d/zfs.repo --source -r zfs -r zfs-source -r zfs-kmod [-r zfs-testing -r zfs-testing-kmod -r zfs-testing-source] -p .
createrepo zfs
createrepo zfs-kmod
createrepo zfs-source
...

Установка [в варианте kABI]:

yum localinstall zfs-release.el7_9.noarch.rpm
поменять адрес репозитория на зеркало
[для использования kmod отключить репозиторий zfs и подключить zfs-kmod # zfs-testing-kmod]
кстати, при установке будут несколько раз правиться все initramfs в /boot - а место есть?
yum install zfs

после обновления zfs требуется сбросить настройки systemd:

systemctl preset zfs-import-cache zfs-import-scan zfs-mount zfs-share zfs-zed zfs.target

vendor preset: enabled
zfs-import-cache # "/sbin/modprobe zfs; /sbin/zpool import -c /etc/zfs/zpool.cache -aN"
zfs-mount # "/sbin/zfs mount -a"
zfs-share # "/bin/rm -f /etc/dfs/sharetab; /sbin/zfs share -a"
zfs-zed 
zfs.target

Предпочитающие погорячее (ибо в репозитории времён 2.2.2 лежит версия 2.0.7 и в testing - 2.1.13) могут поставить только что сделанные BuildBot-ом пакеты (testing сломан), например, оглавление для CentOS 7

Устанавливаемые пакеты и файлы (2.0.6-1 для CentOS 7):

libnvpair3-2.0.6-1.el7.x86_64.rpm: /lib64/libnvpair.so.3, /lib64/libnvpair.so.3.0.0
libuutil3-2.0.6-1.el7.x86_64.rpm: /lib64/libuutil.so.3, /lib64/libuutil.so.3.0.0
libzfs4-2.0.6-1.el7.x86_64.rpm: /lib64/libzfs.so.4, /lib64/libzfs.so.4.0.0, /lib64/libzfs_core.so.3, /lib64/libzfs_core.so.3.0.0, /lib64/libzfsbootenv.so.1, /lib64/libzfsbootenv.so.1.0.0
libzpool4-2.0.6-1.el7.x86_64.rpm: /lib64/libzpool.so.4, /lib64/libzpool.so.4.0.0
zfs-dkms-2.0.6-1.el7.x86_64.rpm: /usr/src/zfs-2.0.6 (модули ядра /lib/modules/целевая-версия.el7.x86_64/extra/*.ko.xz и /var/lib/dkms/zfs/2.0.6/3.10.0-1160.45.1.el7.x86_64/x86_64/module/*.ko.xz и ссылки на неё в /lib/modules/текущая-версия.el7.x86_64/weak-updates/*.ko.xz)?
zfs-2.0.6-1.el7.x86_64.rpm
- /etc/zfs/vdev_id.conf.*.example и /usr/share/man/man5/vdev_id.conf.5.gz
- /etc/zfs/zed.d/ (*.sh, zed-functions.sh, zed.rc) и /usr/share/man/man5/zfs-events.5.gz, ссылки на скрипты из /usr/libexec/zfs/zed.d/, /sbin/zed и /usr/share/man/man8/zed.8.gz - механизм извещений о событиях
- /etc/zfs/zpool.d/ (ссылки на скрипты из /usr/libexec/zfs/zpool.d/) - извлечение информации из системных утилит
- /etc/sudoers.d/zfs - заготовка для доступа к SMART
- /usr/lib/udev/rules.d/60-zvol.rules, /usr/lib/udev/rules.d/69-vdev.rules, /usr/lib/udev/rules.d/90-zfs.rules, /usr/lib/udev/vdev_id и /usr/share/man/man8/vdev_id.8.gz, /usr/lib/udev/zvol_id - создание имён vdev с помощью udev
- ? /lib64/security/pam_zfs_key.so и /usr/share/pam-configs/zfs_key
- /sbin/fsck.zfs и /usr/share/man/man8/fsck.zfs.8.gz - пустая заглушка
- /sbin/mount.zfs и /usr/share/man/man8/mount.zfs.8.gz - вспомогательная программа, вызывается командами mount и zfs mount
- /sbin/zdb и /usr/share/man/man8/zdb.8.gz -отладчик
- /sbin/zfs и /usr/share/man/man8/zfs.8.gz (/usr/share/man/man8/zfs-*.8.gz) - управление наборами данных
- /sbin/zfs_ids_to_path и /usr/share/man/man8/zfs_ids_to_path.8.gz - ?
- /sbin/zgenhostid и /usr/share/man/man8/zgenhostid.8.gz - ?
- /sbin/zhack и /usr/share/man/man1/zhack.1.gz - внесение изменений напрямую в /etc/zfs/zpool.cache
- /sbin/zinject и /usr/share/man/man8/zinject.8.gz - имитатор сбоев для тестирования ZFS
- [/sbin/zpios и /usr/share/man/man1/zpios.1.gz - стресс-тестирование DMU]
- /sbin/zpool и /usr/share/man/man8/zpool.8.gz (/usr/share/man/man8/zpool-*.8.gz) и /usr/share/man/man5/zpool-features.5.gz - создание и манипуляция пулом
- /sbin/zstream и /usr/share/man/man8/zstream.8.gz - ?
- /sbin/zstreamdump и /usr/share/man/man8/zstreamdump.8.gz - посмотреть заголовки и статистику потока, созданного "zfs send"
- /sbin/ztest и /usr/share/man/man1/ztest.1.gz - тесты регрессии для ZFS
- /usr/bin/arc_summary[.py] - статистика использования ARC ("-p 1" и "-p 2") и L2ARC ("-p 3") и DMU ("-p 4"), также выводит значения параметров модулей ядра ("-p 6 -d")
- /usr/bin/arcstat[.py] и /usr/share/man/man1/arcstat.1.gz - iostat для кеша
- /usr/bin/dbufstat[.py] - статистика и содержимое объектов в памяти
- /usr/bin/raidz_test и /usr/share/man/man1/raidz_test.1.gz - ?
- /usr/bin/zvol_wait и /usr/share/man/man1/zvol_wait.1.gz - ?
- /usr/lib/modules-load.d/zfs.conf - загружать модули сразу при загрузке или подождать (параметры в /etc/modprobe.d/zfs.conf? - /usr/share/man/man5/zfs-module-parameters.5.gz, /usr/share/man/man5/spl-module-parameters.5.gz)
- /usr/lib/systemd/system-preset/50-zfs.preset, /usr/lib/systemd/system-generators/zfs-mount-generator, /usr/lib/systemd/system/zfs-import-cache.service, /usr/lib/systemd/system/zfs-import-scan.service, /usr/lib/systemd/system/zfs-import.service, /usr/lib/systemd/system/zfs-import.target, /usr/lib/systemd/system/zfs-mount.service, /usr/lib/systemd/system/zfs-share.service, /usr/lib/systemd/system/zfs-zed.service, /usr/lib/systemd/system/zfs-volumes-wait.service, /usr/lib/systemd/system/zfs-volumes.target, /usr/lib/systemd/system/zfs.target - настройки systemd
- /usr/share/man/man8/zpoolconcepts.8.gz, /usr/share/man/man8/zfsconcepts.8.gz - начало документации

Или ещё горячее - собрать свои rpm:

# нужна инфраструктура сборки модулей ядра (для Rocky Linux 8.9: autoconf, automake, libtool, libuuid-devel, libblkid-devel, 
       libtirpc-devel, rpm-build, ncompress, libaio-devel, libffi-devel, libudev-devel, python3-cffi, python3-packaging

GIT_SSL_NO_VERIFY=true git clone --branch=zfs-2.2.2 https://github.com/openzfs/zfs.git zfs
cd zfs
./autogen.sh
./configure # --prefix=/usr --libdir=/lib64 --sysconfdir=/etc/zfs --datarootdir=/usr/share --mandir=/usr/share/man --enable-linux-builtin=yes --with-linux=?
# нужны пакеты python36-devel (в CentOS7 имеется python3-devel.x86_64, поменял rpm/redhat/zfs.spec), python36-packaging, python36-cffi
make rpm
# zfs-kmod-2.2.2-1.el7.src.rpm
# kmod-zfs-3.10.0-1160.53.1.el7.x86_64-2.2.2-1.el7.x86_64.rpm
# kmod-zfs-devel-2.2.2-1.el7.x86_64.rpm
# kmod-zfs-devel-3.10.0-1160.53.1.el7.x86_64-2.2.2-1.el7.x86_64.rpm
# zfs-dkms-2.2.2-1.el7.src.rpm
# zfs-dkms-2.2.2-1.el7.noarch.rpm
# zfs-2.2.2-1.el7.src.rpm
# zfs-dracut-2.2.2-1.el7.noarch.rpm
# python3-pyzfs-2.2.2-1.el7.noarch.rpm
# libzfs5-2.2.2-1.el7.x86_64.rpm
# libuutil3-2.2.2-1.el7.x86_64.rpm
# libnvpair3-2.2.2-1.el7.x86_64.rpm
# pam_zfs_key-2.2.2-1.el7.x86_64.rpm
# libzpool5-2.2.2-1.el7.x86_64.rpm
# libzfs5-devel-2.2.2-1.el7.x86_64.rpm
# zfs-2.2.2-1.el7.x86_64.rpm
# zfs-test-2.2.2-1.el7.x86_64.rpm

Устанавливаемые пакеты и файлы (2.2.2-1 для CentOS 7.9) в варианте DKMS:

libnvpair3-2.2.2-1.el7.x86_64.rpm: /lib64/libnvpair.so.3, /lib64/libnvpair.so.3.0.0
libuutil3-2.2.2-1.el7.x86_64.rpm: /lib64/libuutil.so.3, /lib64/libuutil.so.3.0.0
libzfs5-2.2.2-1.el7.x86_64.rpm: /lib64/libzfs.so.4, /lib64/libzfs.so.4.1.0, /lib64/libzfs_core.so.3, /lib64/libzfs_core.so.3.0.0, /lib64/libzfsbootenv.so.1, /lib64/libzfsbootenv.so.1.0.0
libzpool5-2.2.2-1.el7.x86_64.rpm: /lib64/libzpool.so.5, /lib64/libzpool.so.5.0.0
pam_zfs_key-2.2.2-1.el7.x86_64.rpm: /lib64/security/pam_zfs_key.so, /usr/share/pam-configs/zfs_key (нет в 8)
python3-pyzfs-2.2.2-1.el7.noarch.rpm (потянул python36-cffi, python36-ply, python36-pycparser): /usr/lib/python3.6/site-packages/libzfs_core/, /usr/lib/python3.6/site-packages/pyzfs-2.2.2-py3.6.egg-info/, /usr/share/doc/python3-pyzfs-2.2.2/
zfs-dkms-2.2.2-1.el7.noarch.rpm: /usr/src/zfs-2.2.2/ и ссылка из /var/lib/dkms/zfs/2.2.2/source (исходники для сборки всего, не только модуля ядра), /var/lib/dkms/zfs (не принадлежит пакету, только /var/lib/dkms/zfs/2.2.2/build/module/spl.ko и zfs.ko), собранные модули ядра /lib/modules/целевая-версия.el7.x86_64/extra/(zfs.ko.xz и spl.ko.xz) и /var/lib/dkms/zfs/2.2.2/3.10.0-1160.45.1.el7.x86_64/x86_64/module/(zfs и spl.ko.xz)
zfs-2.2.2-1.el7.x86_64.rpm:
- /etc/bash_completion.d/zfs
- /etc/sudoers.d/zfs - заготовка для доступа к SMART
- /etc/zfs/vdev_id.conf.*.example и /usr/share/man/man5/vdev_id.conf.5.gz
- /etc/zfs/zed.d/ (*.sh, zed-functions.sh, zed.rc) и /usr/share/man/man5/zfs-events.5.gz, ссылки на скрипты из /usr/libexec/zfs/zed.d/, /sbin/zed и /usr/share/man/man8/zed.8.gz - механизм извещений о событиях
- /etc/zfs/zpool.d/ (ссылки на скрипты из /usr/libexec/zfs/zpool.d/) - извлечение информации из системных утилит
- /usr/lib/udev/rules.d/60-zvol.rules, /usr/lib/udev/rules.d/69-vdev.rules, /usr/lib/udev/rules.d/90-zfs.rules, /usr/lib/udev/vdev_id и /usr/share/man/man8/vdev_id.8.gz, /usr/lib/udev/zvol_id - создание имён vdev с помощью udev
- /sbin/fsck.zfs и /usr/share/man/man8/fsck.zfs.8.gz - пустая заглушка
- /sbin/mount.zfs и /usr/share/man/man8/mount.zfs.8.gz - вспомогательная программа, вызывается командами mount и zfs mount
- /sbin/zdb и /usr/share/man/man8/zdb.8.gz -отладчик
- /sbin/zfs и /usr/share/man/man8/zfs.8.gz (/usr/share/man/man8/zfs-*.8.gz) - управление наборами данных
- /sbin/zfs_ids_to_path и /usr/share/man/man8/zfs_ids_to_path.8.gz - ?
- /sbin/zgenhostid и /usr/share/man/man8/zgenhostid.8.gz - ?
- /sbin/zhack и /usr/share/man/man1/zhack.1.gz - внесение изменений напрямую в /etc/zfs/zpool.cache
- /sbin/zinject и /usr/share/man/man8/zinject.8.gz - имитатор сбоев для тестирования ZFS
- [/sbin/zpios и /usr/share/man/man1/zpios.1.gz - стресс-тестирование DMU]
- /sbin/zpool и /usr/share/man/man8/zpool.8.gz (/usr/share/man/man8/zpool-*.8.gz) и /usr/share/man/man5/zpool-features.5.gz - создание и манипуляция пулом
- /sbin/zstream и /usr/share/man/man8/zstream.8.gz - ?
- /sbin/zstreamdump и /usr/share/man/man8/zstreamdump.8.gz - посмотреть заголовки и статистику потока, созданного "zfs send"
- /sbin/ztest и /usr/share/man/man1/ztest.1.gz - тесты регрессии для ZFS
- /usr/bin/arc_summary - статистика использования ARC ("-p 1" и "-p 2") и L2ARC ("-p 3") и DMU ("-p 4"), также выводит значения параметров модулей ядра ("-p 6 -d")
- /usr/bin/arcstat и /usr/share/man/man1/arcstat.1.gz - iostat для кеша
- /usr/bin/dbufstat - статистика и содержимое объектов в памяти
- /usr/bin/raidz_test и /usr/share/man/man1/raidz_test.1.gz - ?
- /usr/bin/zilstat
- /usr/bin/zvol_wait и /usr/share/man/man1/zvol_wait.1.gz - ?
- /usr/lib/modules-load.d/zfs.conf - загружать модули сразу при загрузке или подождать (параметры в /etc/modprobe.d/zfs.conf? - /usr/share/man/man5/zfs-module-parameters.5.gz, /usr/share/man/man5/spl-module-parameters.5.gz)
- /usr/lib/systemd/system-preset/50-zfs.preset, /usr/lib/systemd/system-generators/zfs-mount-generator, /usr/lib/systemd/system/zfs-import-cache.service, /usr/lib/systemd/system/zfs-import-scan.service, /usr/lib/systemd/system/zfs-import.service, /usr/lib/systemd/system/zfs-import.target, /usr/lib/systemd/system/zfs-mount.service, /usr/lib/systemd/system/zfs-scrub-monthly@.timer, /usr/lib/systemd/system/zfs-scrub-weekly@.timer, /usr/lib/systemd/system/zfs-scrub@.service, /usr/lib/systemd/system/zfs-share.service, /usr/lib/systemd/system/zfs-trim-monthly@.timer, /usr/lib/systemd/system/zfs-trim-weekly@.timer, /usr/lib/systemd/system/zfs-trim@.service, /usr/lib/systemd/system/zfs-zed.service, /usr/lib/systemd/system/zfs-volumes-wait.service, /usr/lib/systemd/system/zfs-volumes.target, /usr/lib/systemd/system/zfs.target - настройки systemd
- /usr/share/man/man8/zpoolconcepts.8.gz, /usr/share/man/man8/zfsconcepts.8.gz - начало документации
- /usr/share/zfs/compatibility.d

С dracut не разбирался, т.к. не использую ZFS в качестве корневой файловой системы.

Модули ядра нужно загружать явно (systemd или sysv init) - к версии 2.2.2 остались только модули spl и zfs,

avl/zavl.ko - Generic AVL tree implementation - слит
nvpair/znvpair.ko - Generic name/value pair implementation - слит
unicode/zunicode - свой UNICODE? - слит
zcommon/zcommon - Generic ZFS support, параметры: zfs_max_dataset_nesting=50, zfs_fletcher_4_impl=fastest (scalar superscalar superscalar4 sse2 ssse3 avx2 avx512f avx512bw aarch64_neon) - слит, параметры в zfs
zfs - ZFS (модуль может использоваться (удерживаться от выгрузки) службой zfs-zed (zed))
icp/icp.ko - что-то с шифрованием, параметры: icp_aes_impl=fastest, icp_gcm_impl=fastest, icp_gcm_avx_chunk_size=32736 - слит, код остался, параметры в zfs
lua/zlua.ko - Lua Interpreter for ZFS, в ядре?! - слит
spl/spl.ko - Solaris Porting Layer, изображает, что это Solaris, а не Linux
[splat - Solaris Porting LAyer Tests]
[zpios - Kernel PIOS implementation]
zstd/zzstd.ko - приватная реализация алгоритма сжатия zstd - слит

Отредактировать /etc/modprobe.d/zfs.conf (spl.conf). Выгрузить и загрузить модуль zfs.

После установки надо загрузить модуль zfs вручную (systemd позаботится о вас)

modprobe zfs
Jan  3 18:42:06 x136 kernel: spl: module verification failed: signature and/or required key missing - tainting kernel
Jan  3 18:42:06 x136 kernel: SPL: Loaded module v0.6.5.8-1
Jan  3 18:42:06 x136 kernel: znvpair: module license 'CDDL' taints kernel.
Jan  3 18:42:06 x136 kernel: Disabling lock debugging due to kernel taint
Jan  3 18:42:06 x136 kernel: ZFS: Loaded module v0.6.5.8-1, ZFS pool version 5000, ZFS filesystem version 5
Jan  3 18:42:10 x136 kernel: SPL: using hostid 0x00000000

Nov 22 20:23:41 grid0001 kernel: spl: loading out-of-tree module taints kernel.
Nov 22 20:23:41 grid0001 kernel: spl: module verification failed: signature and/or required key missing - tainting kernel
Nov 22 20:23:41 grid0001 kernel: icp: module license 'CDDL' taints kernel.
Nov 22 20:23:41 grid0001 kernel: Disabling lock debugging due to kernel taint
Nov 22 20:23:41 grid0001 kernel: ZFS: Loaded module v2.0.6-1, ZFS pool version 5000, ZFS filesystem version 5

Feb 15 18:15:10 grid0156 kernel: Request for unknown module key 'DKMS module signing key: 4b5f14880c6a862f1cfb0e7b663f1c4ba4c18502' err -11
Feb 15 18:15:10 grid0156 kernel: spl: loading out-of-tree module taints kernel.
Feb 15 18:15:10 grid0156 kernel: spl: module verification failed: signature and/or required key missing - tainting kernel
Feb 15 18:15:10 grid0156 kernel: Request for unknown module key 'DKMS module signing key: 4b5f14880c6a862f1cfb0e7b663f1c4ba4c18502' err -11
Feb 15 18:15:10 grid0156 kernel: zfs: module license 'CDDL' taints kernel.
Feb 15 18:15:10 grid0156 kernel: Disabling lock debugging due to kernel taint
Feb 15 18:15:12 grid0156 kernel: ZFS: Loaded module v2.2.2-1, ZFS pool version 5000, ZFS filesystem version 5

По умолчанию установлен параметр zfs_autoimport_disable модуля zfs, импортировать пул также придётся вручную (systemd позаботится о вас):

zpool import -a

Под нагрузкой rngd забирал более 50% CPU. Лечилось записью 2048 в /proc/sys/kernel/random/read_wakeup_threshold (или "kernel.random.read_wakeup_threshold = 2048" в /etc/sysctl.conf).

Устройство управления - /dev/zfs (c,10:58).

Головная боль OpenZFS (ZoL) - борьба ядра и ZFS за память. ZFS расходует ОП на ARC (данные с диска, метаданные с диска и вспомогательные данные; информация в /proc/spl/kstat/zfs/arcstats и /proc/spl/kstat/zfs/dbufstats, size - представление ARC о занятом месте, c_max - верхний предел), объекты из slab (информация в /proc/spl/kmem/slab, предоставляет ядру заниматься объектами размером менее spl_kmem_cache_slab_limit=16КиБ - информация в /proc/slabinfo, dmu_buf_impl_t - место под ссылки на объекты, часть slab слита с информацией от других подсистем ядра), неиспользуемое место (частично освобождённые slab). Однако ZFS ничего не знает о потерях памяти в результате фрагментации, в результате его сведения оказываются черезчур оптимистичными и система может подвиснуть по исчерпанию памяти. В версии 0.7 переделали списочная структура ARC Buffer Data (ABD) - /proc/spl/kstat/zfs/abdstats, данные хранятся в сжатом виде, но теперь растут в трёх местах, насколько это помогло не исследовал. /proc/spl и /proc/zfs содержат море статистики. В версии 2.0 встроили автоматическую настройку параметров ARC.

Параметры модуля ядра spl для ZFS on Linux

spl - Solaris Porting Layer, изображает Solaris на Linux. Параметры можно установить при загрузке системы (spl.имя-параметра=значение), при загрузке модуля из файла /etc/modprobe.d/spl.conf, динамически в /sys/module/spl/parameters/имя-параметра (kmem - собственная подсистема выделения памяти ядра, taskq - собственная подсистема управления потоками в ядре):

spl_panic_halt (0) - вызвать панику ядра по assert, 0 - остановить пострадавший поток для дальнейшей отладки
spl_hostid (0) - уникальный идентификатор системы; 0 - запретить использование
spl_hostid_path (/etc/hostid) - имя файла, содержащего уникальный идентификатор системы
spl_taskq_kick (0) - при обнаружении застрявшей на 5 секунд задачи запускается ещё 1 поток (для борьбы с дедлоками, фу!)
spl_taskq_thread_bind (0) - самостоятельно планировать привязку потоков к ядрам в обход планировщика ядра
spl_taskq_thread_dynamic (1) - динамически порождать потоки при увеличении нагрузки и завершать при уменьшении
spl_taskq_thread_priority (1) - при порождении потоки будут наследовать приоритет родителя
spl_taskq_thread_sequential (4) - порождать дополнительный поток после получения указанного количества заданий
spl_max_show_tasks (512) - максимальное количество задач, показываемых в /proc/spl/{taskq,taskq-all}; 0 - без ограничений
spl_taskq_thread_timeout_ms (10000) - удалять задачу после указанного времени безработицы
spl_kmem_alloc_max (KMALLOC_MAX_SIZE/4) - запросы указанного размера запрашиваются через kmem_alloc (непрерывный кусок), большего - через vmalloc, необходимо уменьшить при проблемах выделения непрерывного куска памяти
spl_kmem_alloc_warn (32768) - при превышении указанного размера запроса к kmem_alloc будет выдаваться предупреждение; 0 - не предупреждать никогда
удалён spl_kmem_cache_expire (0x02) - поведение алгоритма протухания кеша:
- 0x01 - как в Illumos (после 15 секунд неиспользования место возвращается в slab)
- 0x02 - как в Linux (место возвращается при нехватке памяти в системе)
- 0x03 - можно комбинировать
spl_kmem_cache_magazine_size (0) - размер кеша только что освобождённых объектов для быстрого выделения, привязан к ядру; 0 - определять автоматически по размеру slab, неизменяемый
удалён spl_kmem_cache_reclaim (0) - предотвратить быстрый возврат всей памяти из собственного кеша ядра, пусть сначала другие отдадут! Здравствуй, OOM Killer!
spl_kmem_cache_obj_per_slab (8) - выделять указанное число объектов на slab, увеличение ускоряет выделение за счёт раздувания своего кеша
удалён удалён spl_kmem_cache_obj_per_slab_min (1) - минимальное количество объектов на slab
spl_kmem_cache_max_size (32) - максимальный размер slab своего кеша ядра в МиБ, максимальный размер объекта кеша вычисляется как spl_kmem_cache_max_size / spl_kmem_cache_obj_per_slab (4 МиБ)
spl_kmem_cache_slab_limit (16384 для страниц 4KiB) - граница между большими и маленькими объектами: меньшие берутся из Linux slab, большие - собственный механизм выделения памяти SPL
удалён spl_kmem_cache_kmem_limit (PAGE_SIZE/4) - граница между большими и маленькими объектами: меньшие берутся через kmalloc (непрерывный кусок), большие - через vmalloc (single global lock), удалён в пользу spl_kmem_alloc_max
spl_kmem_cache_kmem_threads (4) - количество потоков очереди задач выделения новых slab - spl_kmem_cache, неизменяемый

Параметры модуля ядра zfs для ZFS on Linux

Модуль реализует SPA, DMU, ZVOL и ZPL. Параметры (273 штуки в версии 2.0.0-rc1; 320 штук в версии 2.2.2) можно установить при загрузке системы (zfs.имя-параметра=значение), при загрузке модуля из файла /etc/modprobe.d/zfs.conf, динамически в /sys/module/zfs/parameters/имя-параметра.

Общее поведение, обработка ошибок:

zfs_autoimport_disable (1) - запретить автоматический импорт пулов из /etc/zfs/zpool.cache при загрузке модуля (пусть импортирует)
zfs_recover (0) - попытаться восстановиться после фатальной ошибки (как последнее средство)
zfs_free_leak_on_eio (0) - если в процессе освобождения места встретилась ошибка ввода/вывода, то игнорировать её - пусть лучше место пропадёт
zfs_bclone_enabled (1) - если 0, то игнорировать feature@block_cloning
zfs_deadman_checktime_ms (60000) - частота проверки зависаний
zfs_deadman_enabled (1) - обрабатывать зависания ввода/вывода или выделения места
zfs_deadman_failmode ("wait") - wait: сообщить и подождать ещё, continue - повторить запрос, panic
zfs_deadman_synctime_ms (600000) - синхронизация пула считается зависшей, если не завершилась за указанное время
zfs_deadman_ziotime_ms (300000) - операция ввода/вывода считается зависшей, если не завершилась за указанное время
zfs_max_recordsize (1048576) - ранее поддерживались размеры записей (recordsize) файловой системы от 512 до 128 КиБ, теперь до 16 МиБ, но лучше не превышать 1 МиБ (не всё работает?), по умолчанию recordsize по-прежнему 128 КиБ; большие блоки обеспечивают большую пропускную способность, но большие задержки и большое время изменения 1 байта в середине блока
удалён zfs_mdcomp_disable (0) - запретить сжатие метаданных
zstd_earlyabort_pass (1) - использовать эвристику несжимаемости при использовании zstd-3 и выше с помощью lz4 и zstd-1
zstd_abort_size (131072) - размер теста при использовании эвристики несжимаемости
zfs_object_mutex_size (64) - размер хеш таблицы для блокировок доступа к dnode (ZPL-format dnode), при чрезмерных блокировках рекомендуют увеличить до 4096 и выше (?)
zfs_vdev_max_auto_ashift (16) - максимально возможный рассчитанный ashift
zfs_vdev_min_auto_ashift (9) - минимально возможный рассчитанный ashift
vdev_file_logical_ashift (9 - 512) - логический ashift для устройств на базе файла
vdev_file_physical_ashift (9 - 512) - физический ashift для устройств на базе файла
zfs_vdev_min_ms_count (16) - минимально возможное число метаслабов в vdev
zfs_vdev_ms_count_limit (131072) - максимально возможное число метаслабов в vdev
vdev_validate_skip (0) - пропустить проверку при импорте тома
spa_load_verify_data (1) - верифицировать все блоки данных при импорте пула с откаткой транзакций (import -FX)
spa_load_verify_metadata (1) - верифицировать все блоки метаданных при импорте пула с откаткой транзакций (import -FX)
удалён spa_load_verify_maxinflight (10000) - максимальное количество параллельных операций ввода/вывода при импорте пула с откаткой транзакций (import -FX)
zfs_max_missing_tvds (0) - максимальное число отсутствующих томов при импорте
zfs_multilist_num_sublists (0) - количество подсписков в списочных структурах (позволяет ставить блокировку не на весь список); 0 - max(4,число ЦП)
zfs_unlink_suspend_progress (0) - большие удаляемые файлы ставятся в асинхронную очередь на освобождение; 1 - для тестирования, 0 - очередь обрабатывается при размонтировании
zfs_delete_blocks (20480) - большими для асинхронного удаления считаются файлы больше указанного числа логических блоков
zfs_initialize_value (0xdeadbeefdeadbeee) - шаблон, записываемый при инициализации пула
zfs_initialize_chunk_size (1048576) - размер куска при инициализации пула
zfs_lua_max_instrlimit (100000000) - ограничение на время выполнения (LUA инструкций) канальной программы
zfs_lua_max_memlimit (104857600) - ограничение на размер памяти (байт) канальной программы
zfs_max_dataset_nesting (50) - максимальная вложенность наборов данных
zfs_multihost_fail_intervals (10) - после скольких раз по zfs_multihost_interval сообщать о проблеме; 0 - игнорировать ошибки и задержки
zfs_multihost_import_intervals (20) - сколько раз по zfs_multihost_interval проверять при импорте: не занят ли пул другим сервером; не менее 200 мс
zfs_qat_checksum_disable (0) - отключить устройство QAT для подсчёта sha256
zfs_qat_compress_disable (0) - отключить устройство QAT для сжатия gzip
zfs_qat_encrypt_disable (0) - отключить устройство QAT для шифрования AES-GCM
zfs_removal_ignore_errors (0) - игнорировать ошибки ввода/вывода при удалении устройства; использовать только, если пул не удалось вылечить до удаления устройства
zfs_remove_max_segment (16777216) - максимальный размер выделяемого сегмента при удалении устройства
zfs_trim_extent_bytes_max (134217728) - максимальный размер экстента для команд TRIM/UNMAP
zfs_trim_extent_bytes_min (32768) - минимальный размер экстента для команд TRIM/UNMAP
zfs_trim_metaslab_skip (0) - пропускать неинициализированные метаслабы для TRIM/UNMAP
zfs_trim_queue_limit (10) - максимальное количество TRIM/UNMAP в очереди к vdev
zfs_trim_txg_batch (32) - количество освобождений в группах транзакций между вызовом TRIM/UNMAP
zfs_default_bs (9 - 512) - размер блока данных по умолчанию
zfs_default_ibs (17 - 128KiB) - размер косвенного блока данных по умолчанию
zfs_max_nvlist_src_size (0) - максимальное количество байт в исходном nvlist для /dev/zfs; 0: 128 MiB
zfs_vdev_failfast_mask (1) - битовая карта управляющая повторными запросами при ошибках; 1: драйвер не делает повторов при ошибке устройства; 2: драйвер не делает повторов при ошибке транспорта; 4: драйвер не делает повторов при ошибке драйвера
zfs_vdev_open_timeout_ms (1000) - задержка определения отсутствующего устройства при импорте
zfs_xattr_compat (0) - схема наименования xattrs; 0 - старый Linux, 1 - старый FreeBSD (меньше места); новые системы читают любой формат

Отладка:

zfs_dbgmsg_enable (0) - писать отладочные сообщения во внутренний буфер (доступен в /proc/spl/kstat/zfs/dbgmsg)
zfs_dbgmsg_maxsize (4M) - размер отладочного буфера
zfs_dbuf_state_index (0) - что писать в /proc/spl/kstat/zfs
zio_deadman_log_all (0) - для отладки
удалён zio_decompress_fail_fraction (0) - для отладки
zfs_flags (0) - флаги дополнительной отладочной печати (битовая карта)
spa_load_print_vdev_tree (0) - печатать дерево vdev при импорте
zfs_multihost_history (0) - статистика о последних изменениях данных multihost пишется в /proc/spl/kstat/zfs/имя-пула/multihost
zfs_multihost_interval (1000 ms) - частота записи данных multihost равна zfs_multihost_interval / количество-листевых-vdev
zfs_history_output_max (1048576) - сколько писать в журнал (см. zfs-program)
zfs_read_history (0) - статистика за последние N чтений в /proc/spl/kstat/zfs/имя-пула/reads
zfs_read_history_hits (0) - включать в статистику попадания в кеш
zfs_txg_history (0) - статистика за последние N транзакций в /proc/spl/kstat/zfs/имя-пула/txgs
zfs_removal_suspend_progress (0) - для тестирования
zfs_btree_verify_intensity (0) - верификация B-Tree; 1 - высота, 2- ссылки от детей к родителям, 3 - количество элементов, 4 - порядок (дорого)

send/receive:

ignore_hole_birth (1) - не использовать данные для ускорения передачи файлов с дырками (фича hole_birth), они сделаны в некоторых версиях с ошибками; переименована в send_holes_without_birth_time
send_holes_without_birth_time (1) - синоним ignore_hole_birth
zfs_send_corrupt_data (0) - игнорировать ошибки чтения и контрольные суммы при посылке снимка (zfs send)
zfs_override_estimate_recordsize (0) - не устанавливать размер записи исходя из среднего размера блока в send
zfs_allow_redacted_dataset_mount (0) - разрешать монтирование наборов данных, отредактированных send/receive
zfs_send_unmodified_spill_blocks (1) - для совместимости с неправильно работающей старой версией
zfs_send_no_prefetch_queue_ff (20) - увеличение замедляет порождение дополнительных потоков для send
zfs_send_no_prefetch_queue_length (1048576) - размер внутренней очереди send
zfs_send_queue_ff (20) - увеличение замедляет порождение дополнительных потоков предзагрузки для send
zfs_send_queue_length (16777216) - размер внутренней очереди предзагрузки send
zfs_recv_best_effort_corrective (0) - не требовать совпадения GUID исходного и целевого снимков, при проблемах в лечении перейти к следующей записи
zfs_recv_queue_ff (20) - увеличение замедляет порождение дополнительных потоков для receive
zfs_recv_queue_length (16777216) - размер внутренней очереди receive
zfs_recv_write_batch_size (1MB) - какими кусками писать из внутренней очереди receive (не более 32МБ, размер несжатых данных)

Выделение места:

metaslab_aliquot (524288) - эквивалент размера страйпа для обычного RAID (стоит увеличить для vdev из большого количества дисков?)
metaslab_bias_enabled (1) - учитывать заполненность vdev при выборе подходящего метаслаба при поиске свободного места
metaslab_force_ganging (16777217) - для тестирования
metaslab_force_ganging_pct (3%) - для тестирования
zfs_keep_log_spacemaps_at_export (0) - не удалять карту свободного пространства при экспорте и удалении тома
zfs_metaslab_segment_weight_enabled (1) - выбирать метаслаб на основе сегмента (?)
zfs_metaslab_switch_threshold (2) - при выборе метаслаба по сегменту переходить к следующему метаслабу после указанного числа страйпов
metaslab_debug_load (0) - загрузить все метаслабы при импорте пула
metaslab_debug_unload (0) - не выгружать метаслабы при экспорте пула
metaslab_fragmentation_factor_enabled (1) - использовать уровень фрагментации при выборе наиболее подходящего метаслаба при поиске свободного места
metaslab_df_max_search (16777217) - ограничить число итераций при поиске свободного места metaslab_df_max_search / (2 * (1<<ashift)); помогает при интенсивной записи на фрагментированный пул
metaslab_df_use_largest_segment (0) - при неудаче поиска по превышению лимита итераций выбирать наибольший сегмент, иначе подходящий или больше
zfs_metaslab_max_size_cache_sec (3600 секунд) - кешировать максимальный размер свободного куска метаслабов при выгрузке
zfs_metaslab_mem_limit (25%) - не превышать указанный процент системной памяти под деревья интервалов свободного места
zfs_vdev_default_ms_count (200) - делить добавляемый в пул vdev на указанное число метаслабов
zfs_vdev_default_ms_shift (29) - логарифм размера метаслаба (512MiB?! в реальности 34)
metaslab_preload_enabled (1) - предзагружать группу метаслабов
metaslab_preload_limit (10) - предзагружать группами указанного размера
metaslab_preload_pct (50%) - ограничение использования ЦП задачей предзагрузки метаслабов
metaslab_lba_weighting_enabled (1) - при поиске свободного места выбирать метаслаб с наименьшим LBA (диски быстрее на начальных дорожках), отключить при нехватке места (или сразу?)
metaslab_unload_delay (32 транзакций) - время хранения информации о метаслабе в кеше
metaslab_unload_delay_ms (600000 мс) - время хранения информации о метаслабе в кеше
spa_config_path (/etc/zfs/zpool.cache) - файл с настройками SPA, не надо изменять руками
spa_asize_inflation (24) - ожидаемый коэффициент возрастания размера файла, в худшем случае к блоку данных добавляются 3 блока чётности, получившиеся 4 блока надо умножить на 3 (количества DVA в указателе, параметр copies) и умножить на 2 (dedupditto); если всё это не используется, то можно уменьшить до 2 (на всякий случай 3)
spa_slop_shift (5, т.е. 1/32) - резервируемое под обычные данные свободное место в пуле (1/(2^spa_slop_shift)), данные пишутся, а метаданные (например, снимки) - нет (6 или 7 для архива?)
удалено: metaslabs_per_vdev (200) - при добавлении vdev, он делится на указанное количество метаслабов (независимых источников свободного места; см. zfs_vdev_default_ms_count)
zfs_mg_noalloc_threshold (0) - стараться не использовать группы метаслабов, свободное место в которых меньше указанного процента; полезен при расширении пула
zfs_mg_fragmentation_threshold (95) - стараться не использовать группы метаслабов, фрагментация которых более указанного процента
zfs_metaslab_fragmentation_threshold (70) - стараться не использовать метаслабы, фрагментация которых более указанного процента
zfs_unflushed_max_mem_amt (1073741824) - максимальное количество несинхронизированных метаданных в памяти (байт)
zfs_unflushed_max_mem_ppm (1000) - максимальное количество несинхронизированных метаданных в памяти (ppm)
zfs_unflushed_log_block_max (131072 логических блоков; 16GB для размере логического блока в 128КБ) - максимальное количество несинхронизированных метаданных в памяти при записи журнала spacemap
zfs_unflushed_log_block_min (1000) - минимальное количество несинхронизированных метаданных в памяти
zfs_unflushed_log_block_pct (400) - в процентах от числа метаслабов
zfs_fallocate_reserve_percent (110) - сколько места резервировать при fallocate(2) в процентах от размера данных; в реальности только определяется наличие места и создаётся разреженный файл; 0 - запретить использование fallocate(2
zfs_vdev_queue_depth_pct (1000) - количество заданий на выделение места, которое можно поставить в очередь, в процентах от zfs_vdev_async_write_max_active
zio_dva_throttle_enabled (1) - максимальное число выделений блоков в ожидании ограничивается zfs_vdev_queue_depth_pct
zfs_max_log_walking (5) - количество прошлых транзакций, используется механизмом журналирования карты свободного места для предсказания входящих блоков журнала
zfs_max_logsm_summary_length (10) - максимальное количество строк в итоге журнала карты свободного места
zfs_ddt_data_is_special (1) - место для карты дедупликации выделять специальным классом
zfs_ddt_zap_default_bs (15 - 32 KiB) - размер блока данных DDT ZAP
zfs_ddt_zap_default_ibs (15 - 32 KiB) - размер косвенного блока данных DDT ZAP
zfs_user_indirect_is_special (1) - место для косвенных блоков (indirect) выделять специальным классом
zfs_special_class_metadata_reserve_pct (25 процентов) - выделять блоки для маленьких данных специальным классом только пока имеется указанное количество свободного места
zfs_spa_discard_memory_limit (16777216) - ограничение на размер памяти для предзагружаемых карт свободного места контрольных точек
zfs_metaslab_find_max_tries (100) - выбирать из указанного количества метаслабов, если не полный перебор
zfs_metaslab_try_hard_before_gang (0) - 0: сначала gang, затем полный перебор; 1: сначала полный перебор, затем gang
zap_micro_max_size (131072) - максимальный размер микро ZAP, при превышении преобразуется в fat ZAP

Базовый ввод/вывод:

удалён zio_delay_max (30000) - задержка в милисекундах перед посылкой события
zio_slow_io_ms (30000) - операции ввода/вывода, не уложившиеся в zio_slow_io_ms милисекунд считаются медленными, вызывают событие zevent и выводятся в "zpool status -s"
zio_requeue_io_start_cut_in_line (0) - приоритет операциям ввода/вывода, перепоставленным в очередь
zio_taskq_batch_pct (75) - максимальная загрузка ЦП рабочими потоками ввода/вывода (сжатие, контрольные суммы), неизменяемый (для выделенного сервера - 85?)
zio_taskq_batch_tpq (0) - количество потоков на очередь задач; 0 - автоматический выбор (около 6); меньше - эффективнее, больше - меньше вероятность блокировки
zfs_nopwrite_enabled (1) - разрешать NOP записи (?)
zfs_sync_taskq_batch_pct (75) - максимальная загрузка ЦП потоками синхронизации (75% - это не более 1 потока на ядро)
zfs_vdev_def_queue_depth (32) - глубина очереди запросов по умолчанию для каждого vdev

Транзакции (открытие и наполнение, завершение, синхронизация (запись изменений) на устройство; синхронизация может потребовать выделения места, которое требует записи для себя и т.д. - несколько проходов):

zfs_txg_timeout (5) - интервал между транзакциями в секундах (не маловат? при изменении придётся подстраивать другие параметры)
удалён: zfs_free_max_blocks (100000) - максимальное количество блоков, освобождаемых за 1 транзакцию
zfs_free_min_time_ms (1000) - минимальное количество милисекунд на освобождение за транзакцию (асинхронный zfs destroy)
zfs_obsolete_min_time_ms (500) - минимальное количество милисекунд на освобождение косвенных записей за транзакцию (асинхронный zfs destroy)
zfs_async_block_max_blocks (ULONG_MAX) переименован в zfs_max_async_dedup_frees - максимальное количество блоков, освобождаемых в одной txg
zfs_max_async_dedup_frees (100000) - максимальное количество блоков дедупликации, освобождаемых в одной txg (раньше назывался zfs_async_block_max_blocks)
zfs_min_metaslabs_to_flush (1) - минимальное количество изменяемых метаслаб на транзакцию
zfs_dmu_offset_next_sync (1) - синхронизировать транзакцию при поиске дырок (а нужно? из-за какой-то ошибки рекомендуется 0)
zfs_sync_pass_deferred_free (2) - откладывать освобождение блоков, инициированное на проходе с указанным номером и далее
zfs_sync_pass_dont_compress (8) - не сжимать блоки, инициированное на проходе с указанным номером и далее
zfs_sync_pass_rewrite (2) - переписывать новые указатели блоков на проходе с указанным номером и далее
zfs_unflushed_log_txg_max (1000) - максимальная длительность (в транзакциях) несброса метаслаба

Ограничение потока записи (уменьшение процентов уменьшает эффективность буферизации за счёт снижения расхода памяти и уменьшения задержек, при чрезмерном увеличении подлежащее устройство будет захлёбываться; статистика в /proc/spl/kstat/zfs/dmu_tx (dmu_tx_assigned - всего транзакций, dmu_tx_dirty_delay - задержано, dmu_tx_dirty_throttle - задержка не помогла и устройство захлебнулось)):

zfs_dirty_data_max_percent (10%) - при достижении доли грязных данных (в процентах от zfs_dirty_data_max) ждём завершения синхронизации транзакции
zfs_dirty_data_max (10% от ОП, но не более zfs_dirty_data_max_max) - при достижении количества грязных данных (в байтах) ждём завершения синхронизации транзакции
zfs_dirty_data_sync_percent (20%) - при достижении доли грязных данных (в процентах от zfs_dirty_data_max) начинаем синхронизацию транзакции
удалён zfs_dirty_data_sync (67108864) - синхронизовать транзакцию при накоплении указанного количества грязных данных
zfs_delay_min_dirty_percent (60%) - при достижении доли грязных данных (в процентах от zfs_dirty_data_max) задержать транзакцию (см. zfs_vdev_async_write_active_max_dirty_percent)
zfs_dirty_data_max_max_percent (25%) - ограничение для zfs_dirty_data_max_percent в процентах от ОП, неизменяемый
zfs_dirty_data_max_max (25% от ОП) - ограничение для zfs_dirty_data_max, неизменяемый; кто-то вписывает сюда 4GB
zfs_delay_scale (500000) - масштабный множитель для задержки транзакции (см. документацию; обратное к IOPS в наносекундах; если много задержек (vdev захлёбывается), то надо увеличить zfs_delay_scale или уменьшить zfs_delay_min_dirty_percent)
zfs_per_txg_dirty_frees_percent (5) - предел освобождаемых косвенных блоков (в процентах от грязного), при превышении которого дальнейшее освобождение откладывается до следующей транзакции; 0 - без предела

Шифрование:

zfs_disable_ivset_guid_check (0) - для совместимость с предварительным выпуском
zfs_key_max_salt_uses (400000000) - максимальное количество использования одной соли

Предварительное чтение:

zfs_prefetch_disable (0) - запретить всё предварительное чтение по предсказанию (предварительные загрузки для zfs send и пр. не отключаются)
удалён zfs_read_chunk_size (1048576) - размер читаемых кусков в байтах
zfetch_max_streams (8) - максимальное количество потоков предварительного чтения на файл
zfetch_max_distance (67108864) - максимальное количество байт предзагрузки на поток
zfetch_max_idistance (67108864) - максимальное количество байт для предзагрузки косвенно на поток)
zfetch_max_sec_reap (2) - максимальное время простоя (секунд) потока предзагрузки до уничтожения
zfetch_min_distance (4194304) - минимальное количество байт предзагрузки на поток; растёт от затребованного размера удвоением на каждом шагу до указанного минимума; затем размер увеличивается на 1/8 на шаг при условии ненасыщения ввода
zfetch_min_sec_reap (1) - минимальное время простоя (секунд), после которого поток может быть завершён
удалён zfetch_block_cap (256) - максимальное количество блоков, которое может быть предварительно загружено за 1 раз
удалён zfetch_array_rd_sz (1048576) - не читать предварительно более указанного количества байт за раз (размер буфера)
zfs_pd_bytes_max (52428800) - максимальное количество байт для предварительного чтения при обходе пула (zfs send и др.)
zvol_prefetch_bytes (131072) - читать указанное количество байт с начала и конца ZVOL (понадобятся для blkid)
zfs_dedup_prefetch (0) - предварительно читать дедуплицированные блоки (?)
zfs_no_scrub_prefetch (0) - отключить предварительное чтение для scrub
dmu_object_alloc_chunk_shift (7) - за 1 операцию выделяется 2^dmu_object_alloc_chunk_shift слотов dnode, 128 - настройка для большой нагрузки
dmu_prefetch_max (134217728) - ограничение на размер одного запроса предзагрузки
zap_iterate_prefetch (1) - предварительно читать все листья ZAP (очередь удаления?)
zfs_arc_min_prefetch_ms (0) - время блокировки предзагруженных блоков в ARC в милисекундах (0 - 1000 мс)
zfs_arc_min_prescient_prefetch_ms (0) - время блокировки предвиденных предзагруженных блоков в ARC в милисекундах (0 - 6000 мс)
zfs_traverse_indirect_prefetch_limit (32) - количество предзагружаемых блоков, указываемых косвенным блоком, при обходе пула (send)

Обслуживание синхронной записи (ZIL, SLOG):

zfs_nocacheflush (0) - запретить сброс кеша на подлежащем устройстве (можно, если все подлежащие устройства имеют батарейку)
zil_nocacheflush (0) - не посылать команду сброса кеша после записи (а зачем вам тогда ZIL? разница с zfs_nocacheflush?)
zil_replay_disable (0) - игнорировать содержимое ZIL при восстановлении
удалён 0.7: zil_slog_limit (1048576) - не сбрасывать более указанного количества байт на ZIL устройство
zil_slog_bulk (786432) - не писать больше в синхронном режиме на транзакцию, остальное - в асинхронном режиме
zfs_immediate_write_sz (32768) - блоки большего размера писать сразу на конечное устройство
zfs_commit_timeout_pct (5) - время ожидания не полностью заполненного блока ZIL перед записью на постоянный носитель (в процентах от предыдущей задержки)
zfs_zil_clean_taskq_maxalloc (1048576) - максимальное количество записей taskq в кеше, при превышении записи itxs выполняются в синхронном режиме
zfs_zil_clean_taskq_minalloc (1024) - предварительно заполненные записис taskq
zfs_zil_clean_taskq_nthr_pct (100) - управление количеством потоков dp_zil_clean_taskq, 100 - это 1 поток на ядро
zil_maxblocksize (131072) - на сильно фрагментированном пуле рекомендуется уменьшить до 36K
zfs_zil_saxattr (1) - 0: запретить запись в ZIL записей xattr=sa даже при включении org.openzfs:zilsaxattr
zil_maxcopied (7680) - обмен эффективности использования пространства журнала на дополнительные блокировки
zil_min_commit_timeout (5000) - задержка в наносекундах в надежде, что вот-вот придёт езё 1 запись
zfs_embedded_slog_min_ms (64) - если метаслабов больше указанного, то 1 из метаслабов на каждом устройстве выделяется под ZIL
zfs_wrlog_data_max (zfs_dirty_data_max*2) - максимальный размер ZIL

ARC кеш (статистика в /proc/spl/kstat/zfs/dbufstats):

zfs_arc_min (0) - минимальный размер ARC в байтах (0 - max (32Mib, 1/32 ОП))
zfs_arc_max (0) - максимальный размер ARC в байтах (1/2 для Linux) (для выделенного сервера 90%?)
zfs_arc_meta_balance (500) - баланс между метаданными и данными при ghost hit (100 - поровну)
удалён zfs_arc_meta_limit (0) - максимальный размер метаданных (байт) в ARC (0 - ограничение задаётся в zfs_arc_meta_limit_percent)
удалён 2.2.0 zfs_arc_meta_limit_percent (75) - максимальный размер метаданных (в процентах) в ARC
удалён zfs_arc_meta_min (0) - минимальный размер метаданных (байт) в ARC
удалён 2.2.0 zfs_arc_meta_prune (10000) - количество просматриваемых dentry и inode за раз в поисках возможности почистить в связи с превышением zfs_arc_meta_limit
удалён zfs_arc_meta_adjust_restarts (4096) - количество проходов сканирования в связи с превышением zfs_arc_meta_limit
удалён zfs_arc_meta_strategy (1) - стратегия освобождения метаданных из кеша (0 - только метаданные; 1 - что-то ещё?)
zfs_arc_sys_free (0) - какое количество свободной ОП оставлять в системе (в байтах); 0 означает max (512KiB, 1/64 физической памяти)
zfs_arc_average_blocksize (8192: 1MB под хеш на 1ГБ памяти) - хеш-таблица строится исходя из предполагаемого среднего размера блока, задав правильное значение можно освободить [не]много ОП, неизменяемый! (32768?)
zfs_arc_grow_retry (0) - если не 0, то использовать в вместо arc_grow_retry (5): секунд перед попыток увеличить размер ARC после исчерпания памяти
удалено: zfs_arc_p_aggressive_disable (1) - запретить агрессивный рост arc_p (?)
удалён zfs_arc_p_dampener_disable (1) - disable arc_p adapt dampener (?)
zfs_arc_shrink_shift (0) - log2(освобождаемой доли ARC) (0 - это 7, раньше было 5)
удалён zfs_arc_p_min_shift (0) - используется для вычисления минимальных и максимальных arc_p (?) (сдвиг целевого размера ARC вправо на zfs_arc_p_min_shift); 0 - это 4
zfs_arc_lotsfree_percent (10) - тормозить ввод/вывод когда свободная ОП системы упадёт ниже указанного в процентах (уменьшить?)
удален zfs_arc_min_prefetch_lifespan (100) - минимальное время жизни предзагруженного блока (секунд? тиков?)
удален zfs_arc_num_sublists_per_state (количество ядер) - каждый список состояния ARC разделён на подсписки для уменьшения блокировок; убрано в 0.7 (более общий параметр zfs_multilist_num_sublists)
dbuf_cache_max_bytes (очень много, -1UL) - максимальный размер кеша dbuf, целевой размер кеша dbuf вычисляется исходя из dbuf_cache_shift (1/32 ARC)
dbuf_metadata_cache_max_bytes (очень много, -1UL) - максимальный размер кеша dbuf для метаданных, целевой размер кеша dbuf вычисляется исходя из dbuf_metadata_cache_shift (1/64 ARC)
dbuf_cache_hiwater_pct (10%) - при превышении размера кеша dbuf на указанный процент от dbuf_cache_max_bytes начинается освобождение
dbuf_cache_lowater_pct (10%) - при освобождении кеша dbuf ниже указанного процента от dbuf_cache_max_bytes освобождение заканчивается
dbuf_cache_shift (5) - ограничить размер кеша dbuf в 1/2^dbuf_cache_shift от размера ARC
dbuf_metadata_cache_shift (6) - ограничить размер кеша dbuf метаданных в 1/2^dbuf_metadata_cache_shift от размера ARC
dbuf_mutex_cache_shift (0) - размер массива mutex кеша dbuf (0 - определять автоматически)
spa_load_verify_shift (4) - доля целевого размера ARC, которую можно занять при импорте пула (log2)
zfs_abd_scatter_enabled (1) - хранить запросы ABD в непрерывном куске памяти и использовать scatter/gather; отключение ускоряет работу за счёт фрагментации памяти ядра
zfs_abd_scatter_max_order (определяется ядром, 10) - максимальное количество страниц памяти в непрерывном куске ABD
zfs_abd_scatter_min_size (1536) - минимальный размер запроса ABD, который будет использовать механизм scatter/gather
zfs_arc_dnode_limit (0) - ограничить размер под dnode в ARC; 0 - использовать zfs_arc_dnode_limit_percent; см. zfs_arc_meta_limit
zfs_arc_dnode_limit_percent (10%) - ограничить размер под dnode в ARC
zfs_arc_dnode_reduce_percent (10%) - сколько процентов занятой под dnode памяти освободить
zfs_arc_eviction_pct (200) - при превышении целевого размера ARC освобождаемая часть может быть занята под новое размещение, здесь задаётся размер освобождаемой часть в процентах от вновь выделяемой, поэтому всегда больше 100
zfs_arc_evict_batch_limit (10) - при освобождении обрабатывать zfs_arc_evict_batch_limit заголовков из подсписка перед переходом к следующему (позволяет не опустошать подсписки полностью)
удалён fs_arc_overflow_shift (8) - ARC считается переполненным, если размер превышает целевой размер плюс 1/2^zfs_arc_overflow_shift целевого размера
zfs_arc_pc_percent (0) - процент кеша страниц (NR_FILE_PAGES), освобождаемый под давлением на память
zfs_arc_prune_task_threads (1) - количество потоков arc_prune; в Linux от количества точек монтирования до количества ядер; полезность не доказана
zfs_arc_shrinker_limit (10000) - сколько страниц изгнать при попытке выделить страницу (160MiB для страниц 4KiB требует менее 100 мс); 0 - без ограничений
zfs_compressed_arc_enabled (1) - данные сжатой файловой системы хранить в кеше в сжатом виде

L2ARC кеш:

l2arc_exclude_special (0) - не кешировать в L2ARC данные special vdev
l2arc_feed_again (1) - ускоренный прогрев L2ARC при начальном заполнении
l2arc_feed_min_ms (200) - минимальный интервал между записью в L2ARC в милисекундах для l2arc_feed_again
l2arc_feed_secs (1) - интервал между записью в L2ARC в секундах
l2arc_headroom (2) - сколько l2arc_write_max просматривать ARC в поисках кешируемых данных; 0 - весь; можно обеспечить хранимость ARC с помощью хранимого L2ARC
l2arc_headroom_boost (200) - на сколько процентов увеличивать l2arc_headroom в случае сжатого L2ARC
l2arc_meta_percent (33) - сколько процентов ARC может быть занята заголовками L2ARC (не вытесняются из памяти даже под давлением!)
l2arc_mfuonly (0) - кешировать в L2ARC только часто используемые (MFU), но не свежие (MRU)
l2arc_noprefetch (1) - не писать в L2ARC предварительно прочитанное
удалён: l2arc_nocompress (0) - не сжимать
l2arc_norw (0) - не читать во время записи (?)
l2arc_rebuild_blocks_min_l2size (1GiB) - не воссоздавать L2ARC меньшего размера
l2arc_rebuild_enabled (1) - перестроить L2ARC при импорте пула (сохраняемый L2ARC)
l2arc_trim_ahead (0) - предварительная очистка перед записью; в процентах от l2arc_write_max; 0 - запретить TRIM/UNMAP
l2arc_write_boost (8388608) - можно записать дополнительно байт во время прогрева
l2arc_write_max (8388608) - записывать не более указанного количества байт за интервал (l2arc_feed_secs?)

Планировщик ввода/вывода (отдельные очереди для задач каждого типа):

zfs_vdev_max_active (1000) - максимальное количество всех активных операций ввода/вывода на vdev (листевой? верхний?), меньше - уменьшаются задержки, больше - увеличивается пропускная способность; не должно быть меньше суммы всех min_active
ограничения на отдельные классы операций (не маловато для SSD или большого RAID в качестве vdev?; увеличение max увеличивает пропускную способность и задержки): zfs_vdev_async_write_max_active (3, было 10; обычная запись "грязных" данных из буфера записи, см. zfs_dirty_data_max), zfs_vdev_async_write_min_active (2, было 1, для лечения рекомендуется 3; обычная запись), zfs_vdev_async_read_max_active (3, было 10; предварительное чтение), zfs_vdev_async_read_min_active (1; предварительное чтение), zfs_vdev_sync_read_max_active (10; обычное чтение), zfs_vdev_sync_read_min_active (10; обычное чтение), zfs_vdev_sync_write_max_active (10; ZIL), zfs_vdev_sync_write_min_active (10; ZIL), zfs_vdev_initializing_max_active (1), zfs_vdev_initializing_min_active (1), zfs_vdev_rebuild_max_active (3), zfs_vdev_rebuild_min_active (1), zfs_vdev_removal_max_active (2), zfs_vdev_removal_min_active (1), zfs_vdev_scrub_max_active (2), zfs_vdev_scrub_min_active (1), zfs_vdev_trim_max_active (2, zfs_vdev_trim_min_active (1)
zfs_vdev_async_write_active_min_dirty_percent (30) - до этого процента грязных данных поддерживаем указанную минимальную активность; уменьшение увеличивает пропускную способность
zfs_vdev_async_write_active_max_dirty_percent (60) - после этого процента грязных данных поддерживаем указанную максимальную активность, в середине - интерполяция
zfs_vdev_nia_delay (5) - переход от zfs_*_min_active параллельных неинтерактивных операций к zfs_*_max_active происходит после указанного количества неинтерактивных операций при отсутствии интерактивных
zfs_vdev_nia_credit (5) - борьба с монополизацией устройства хранения последовательными неинтерактивными запросами; не более указанного числа таких незавершённх операций допускается при наличии интерактивных задач

Выбор алгоритма рассчёта контрольной суммы:

icp_aes_impl (fastest) - cycle [fastest] generic x86_64 aesni
icp_gcm_impl (fastest) - cycle [fastest] avx generic pclmulqdq
zfs_blake3_impl (fastest) - cycle, fastest, generic, sse2, sse41, avx2, avx512
zfs_fletcher_4_impl (fastest) - fastest, scalar, sse2, ssse3, avx2, avx512f, avx512bw, aarch64_neon
zfs_sha256_impl (fastest) - cycle [fastest] generic x64 ssse3 avx avx2 shani
zfs_sha512_impl (fastest) - cycle [fastest] generic x64 avx avx2
zfs_vdev_raidz_impl (fastest) - вариант реализации алгоритма подсчёта контрольных сумм (fastest, original, scalar, sse2, ssse3, avx2, avx512f, avx512bw, aarch64_neon, aarch64_neonx2, powerpc_altivec); при загрузке модуля можно указывать только fastest, original и scalar

Работа с vdev:

vdev_removal_max_span (32768) - при удалении vdev данные с него копируются вместе с "ненужными" кусками свободного места, определяет максимальный размер ненужной части
удалён zfs_vdev_aggregate_trim (0) - разрешить слияние интервал TRIM/UNMAP
zfs_vdev_aggregation_limit (1048576; было 128КиБ) - максимальный размер слияния ввода/вывода
zfs_vdev_aggregation_limit_non_rotating (131072) - максимальный размер слияния ввода/вывода для SSD
zfs_vdev_read_gap_limit (32768) - запросы на чтение агрегируются даже при наличии разрыва указанного размера
zfs_vdev_write_gap_limit (4096) - запросы на запись агрегируются даже при наличии разрыва указанного размера
удалён: zfs_vdev_mirror_switch_us (10000) - менять ногу зеркала через каждые zfs_vdev_mirror_switch_us микросекунд
удалён? нет? unused?: zfs_vdev_scheduler (noop)
zfs_vdev_mirror_rotating_inc (0) - используется алгоритмом балансировки нагрузки на членов зеркала
zfs_vdev_mirror_rotating_seek_inc (5) - используется алгоритмом балансировки нагрузки на членов зеркала
zfs_vdev_mirror_rotating_seek_offset (1048576) - используется алгоритмом балансировки нагрузки на членов зеркала
zfs_vdev_mirror_non_rotating_inc (0) - используется алгоритмом балансировки нагрузки на членов зеркала
zfs_vdev_mirror_non_rotating_seek_inc (1) - используется алгоритмом балансировки нагрузки на членов зеркала
удалён zfs_vdev_cache_max (16384) - запросы на чтение менее указанного раздуваются до 2^zfs_vdev_cache_bshift и помещаются в LRU размером zfs_vdev_cache_size
удалён zfs_vdev_cache_size (0) - размер кеша для каждого vdev, неизменяемый (размер умножается на 2^zfs_vdev_cache_bshift); в дополнение к предварительному чтению на уровне файловой системы ZFS делает предварительное чтение на уровне vdev, эти данные хранятся в привязанном к vdev LRU-кеше размером 10 МиБ (zfs_vdev_cache_size); читаются только метаданные; при потоке случайных запросов на пространстве сотен ТБ даже метаданные теряют локальность, можно попробовать установить "primarycache=metadata" или даже none, а также zfs_vdev_cache_bshift=13
удалён zfs_vdev_cache_bshift (16) - множитель (2^zfs_vdev_cache_bshift)
zfs_condense_indirect_commit_entry_delay_ms (0) - время ожидания во время удаления vdev из пула (для тестирования)
zfs_condense_indirect_obsolete_pct (25%) - для тестирования
zfs_condense_indirect_vdevs_enable (1) - сжатие карт обображения при удалении vdev из пула
zfs_condense_max_obsolete_bytes (1073741824) - сжимать карты отбражения только, если удаляемы кусок больше указанного
zfs_condense_min_mapping_bytes (131072) - сжимать карты отбражения только, если её размер больше указанного

scrub и лечение:

zfs_resilver_min_time_ms (3000) - минимальные затраты на лечение в милисекундах в течении транзакции
zfs_scrub_min_time_ms (1000) - минимальные затраты на сканирование в милисекундах в течении транзакции
zfs_no_scrub_io (0) - только обход метаданных, данные пользователей не проверяются
переименована? zfs_scan_min_time_ms (1000) - минимальные затраты на scrub в милисекундах в течении транзакции
удалён: zfs_top_maxinflight (32) - максимальное количество операций ввода/вывода для scrub и лечения на vdev верхнего уровня "в пути"
удалён: zfs_scan_idle (50) - не должно быть активных операций ввода/вывода указанное количество тиков, чтобы возобновить scrub или лечение
удалён: zfs_resilver_delay (2) - задержка в тиках перед возобновлением лечения после выявления окна тишины
удалён: zfs_scrub_delay (4) - задержка в тиках перед возобновлением лечения после выявления окна тишины
zfs_rebuild_max_segment (1048576) - максимальный размер читаемого сегмента при последовательном лечении
zfs_rebuild_scrub_enabled (1) - после завершения лечения автоматически запускать scrub
zfs_rebuild_vdev_limit (67108864) - максимальный размер запроса для конечного устройства хранения при лечении
zfs_reconstruct_indirect_combinations_max (4096) - если при реконструкции разбиваемый косвенный блок имеет более указанного числа вариантов, то ограничиться указанным кличеством случайно выбранных
zfs_resilver_disable_defer (0) - отключить resilver_defer (откладывает новое лечение до завершения текущего лечения)
zfs_scan_ignore_errors (0) - удалить список ошибок DTL (dirty time list) после сканирования, даже если не все ошибки удалось исправить; предотвращает запуск лечения при следующем импорте
zfs_scan_checkpoint_intval (7200 секунд) - интервал между контрольными точками при последовательном сканировании
zfs_scan_fill_weight (3) - сортировка сегментов ввода/вывода при сканировании и лечении: меньше - предпочитать заполненные сегменты, больше - просто большого размера; неизменяемый
zfs_scan_mem_lim_fact (20) - доля ОП, которую допускается использовать для сортировки сегментов, обеспечивающей последовательный доступ
zfs_scan_strict_mem_lim (0) - принимать лимит всерьёз
zfs_scan_mem_lim_soft_fact (20) - доля от zfs_scan_mem_lim_fact, при опускании до которой возвращаемся к сортировке
zfs_scan_issue_strategy (0) - стратегия сканирования и лечения; 1 - последовательнее (нужно много памяти - zfs_scan_mem_lim_fact, для сильнофрагментированного пула), 2 - сначала самые большие непрерывные куски (позволяет слить маленькие кусочки в конце процесса), 0 - стратегия 1 при обычном сканировании и стратегия 2 при создании контрольных точек
zfs_scan_legacy (0) - 0: собирать метаданные в памяти, а затем сканировать данные последоватеольно; 1 - старый алгоритм
zfs_scan_max_ext_gap (2097152 байт) - максимальный разрыв между запросами ввода/вывода, при котором сканирование ещё считается последовательным
zfs_scan_suspend_progress (0) - для тестирования
zfs_scan_vdev_limit (41943040) - максимальное количество одновременно обрабатываемых данных для одного vdev
zfs_scan_report_txgs (0) - 0: ожидаемое время завершения вычисляется из контрольных точек, 1: из транзакций
zfs_scrub_error_blocks_per_txg (4096) - сканировать указанное количество ошибочных блоков на транзакцию
spa_upgrade_errlog_limit (0) - ограничение на преобразование записей об ошибках при переходе на feature@head_errlog

Тома и снимки:

zvol_major (230) - мажорный номер для устройств zvol, неизменяемый
zvol_inhibit_dev (0) - не создавать файлы для устройств zvol
zvol_max_discard_blocks (16384) - максимальное количество блоков (volblocksize) для TRIM/UNMAP, неизменяемый
zvol_threads (32) - максимальное количество потоков, которые параллельно обрабатывают zvol
zvol_request_sync (0) - обрабатывать запросы к zvol синхронно
zvol_volmode (1) - возможные значения: 1 (full), 2 (dev), 3 (none)
zfs_admin_snapshot (0) - разрешить манипуляцию снимками через каталоги в .zfs/snapshot (mkdir/rmdir/mv); действует через NFS (no_root_squash)
zfs_expire_snapshot (300) - файловая система для снимка автоматически монтируется при первом обращении к .zfs/snapshot/имя и демонтируется после zfs_expire_snapshot секунд неиспользования (NFS?)
zfs_livelist_max_entries (500000) - количество указателей на блок в подсписке изменений (больше - увеличивает потребление памяти, но уменьшает затраты ЦП на вставку
zfs_livelist_min_percent_shared (75) - если общая часть между снимком и его клоном меньше указанного, то возвращаемся к старому методу хранения различий
zfs_livelist_condense_new_alloc, zfs_livelist_condense_sync_cancel, zfs_livelist_condense_sync_pause, zfs_livelist_condense_zthr_cancel, zfs_livelist_condense_zthr_pause - параметры livelist для тестового набора
zvol_enforce_quotas (0) - жёсткое управление квотами затратно

События:

zfs_checksum_events_per_second (20) - ограничение скорости генерации событий в секунду (контрольная сумма)
zfs_slow_io_events_per_second (20) - ограничение скорости генерации событий в секунду (медленный ввод/вывод)
удалён 2.2.1 zfs_zevent_cols (80) - ширина колонки при выводе сообщения о событии на консоль
удалён 2.2.1 zfs_zevent_console (0) - выводить события на консоль
zfs_zevent_len_max (0) - максимальная длина очереди событий (не менее 64; 0 - вычисляется исходя из количества ядер)
zfs_zevent_retain_expire_secs (900 секунд) - интервал хранения отчётов для фильтрации дублей
zfs_zevent_retain_max (2000) - количество отчётов для фильтрации дублей

Что это:

icp_gcm_avx_chunk_size - описание потерялось при переход из модуля icp в zfs?
zfs_brt_prefetch - ?
удалена: zfs_disable_dup_eviction (0)
zfs_free_bpobj_enabled (1) - разрешить обработку объектов free_bpobj (?)
zfs_scan_blkstats - ?
zfs_snapshot_history_enabled - ?
zfs_vnops_read_chunk_size (1048576) - размер кусков чтения (vnops? что это?)

Пул хранения (zpool)

Набор данных (в частности, файловая система zfs) использует ресурсы виртуального пула хранения (zpool), который конструируется из виртуальных устройств vdev, которые образуются из группы (1 штука - это тоже группа) блочных устройств: файлы, разделы или целые устройства. Разработчики рекомендуют указывать целое устройство - ZFS может включить кеш записи диска (для ZFS это считается безопасным, если по всей цепочке работает команда сброса кеша; см. параметр zfs_nocacheflush модуля zfs) в Solaris и FreeBSD, в ZFS on Linux для устройства устанавливается планировщик noop и создаётся GPT таблица разделов - маленький раздел на 8МБ и большой под ZFS (как выключить создание GPT? - можно сделать VG из 1 диска и LV на весь том, заодно с именами станет хорошо). Рекомендуется использовать имена дисков из каталога /dev/disk/by-id/ (ata-изготовитель_модель_серийный-номер, scsi-изготовитель_модель_серийный-номер, scsi-WWID, wwn-WWN (8 байт), wwn-WWID (16 байт)) или /dev/disk/by-path/ (позволяет разнести диски по ящикам, но нельзя тасовать их; в Solaris работает логика замены сбойнувшего диска на новый в ту же ячейку, а в Linux?) или /dev/disk/by-vdev/ (надо предварительно заполнить /etc/zfs/vdev_id.conf).

Пул может хранить содержимое нескольих наборов данных, их снимков и клонов. Место выделяется из пула по требованию.

Типы vdev:

disk - блочное устройство (устройство, раздел, логический том)
file - файл (использовать для тестирования)
mirror - зеркало из 2 и более устройств (на каждом устройстве отдельная копия)
raidz (raidz1) - приблизительный аналог RAID-5, одна контрольная сумма (xor), но ширина страйпа определяется динамически - каждый блок файловой системы представляет собой полный страйп (от 512/4096 байт до 128КиБ/16МиБ), каждая запись - запись полного страйпа; отпадает необходимость предварительного чтения для заполнения страйпа, буферизация и механизм NVRAM, а также проблема "write hole"; ZFS может определить, который из дисков вернул неверные данные по контрольной сумме и исправить их; для определения ширины страйпа требуется предварительно прочитать метаданные; но больше места уходит на хранение битов чётности и заполнители
raidz2 - аналог RAID-6, первая контрольная сумма - xor, вторая - код рида-соломона на GF(2^8); GF не честное, оптимизировано для производительности, поэтому содержит 0 и не имеет право называться RAID-6
raidz3 - с тройной чётностью
draid, draid1, draid2, draid3 - модификация raidz с зарезервированным местом для горячей замены распределённым по устройствам хранения; устроены совсем по-другому и имеют другие характеристики "потерянного" пространства и IOPS (ещё худшие); не рекомендуется для случаев с маленькими файлами
spare - диск горячей замены (может быть приписан к нескольких пулам одновременно - не рекомендуется, т.к. одновременное использование не детектируется); пул должен иметь свойство autoreplace (по умолчанию выключено); нельзя заменять cache и log; можно добавлять (zpool add) и удалять (zpool remove) на ходу; процесс подмены можно остановить (zpool detache); пул нельзя экспортировать при задействованном резервном диске; при отключении основного диска (zpool detache) резервный диск занимает его место на постоянной основе; совершенно нечеловеческая логика, сдобренная наличием в Solaris сервиса FMA, которого нет в Linux - не пользуйтесь никогда (запасной диск активируется не при изменении состояния пула, а при обработке события сбоя; например, при добавлении запасного диска к деградировавшему пулу, он не активируется и т.п.)
log - выделенное устройство для буфера синхронной записи (по умолчанию место для ZIL выделяется из пула) - SLOG (ZIL device); поддерживается балансировка нагрузки, зеркало; можно добавлять, удалять, заменять, отсоединять и подсоединять обратно; экспортируется и импортируется как часть пула
dedup - устройство для хранения таблиц дедупликации; поддерживается балансировка нагрузки
special - устройство для хранения метаданных (метаданные, косвенные блоки, таблицы дедупликации - исключаются с помощью zfs_ddt_data_is_special) и, возможно, маленьких файлов (свойство набора данных special_small_blocks); поддерживается балансировка нагрузки; при переполнении специального устройства место под метаданные выделяется на обычном; практика:
- при размещении метаданных и DDT на Intel SSD 3500 ускорение однопоточного find в 3 раза относительно MegaRAID на дисках 7200rpm, 20-поточного - в 7 раз
- при тестировании "zfs receive" Intel DC S3500 отдавал 1 Media_Wearout_Indicator каждые 2-3 дня (Intel DC D3-S4510 и DC D3-S4610 держатся)
- при тестировании архива на наших данных (shareh192, 200 последовательных снимков, redundant_metadata=most) выяснилось, что размер special д.б. 2.5% от данных (special_small_blocks=4096, dnodesize=auto), из них DDT занимает 10%; при этом фрагментация - 46%
- при тестировании полного архива (zfs_ddt_data_is_special, redundant_metadata=none, dnodesize=legacy, special_small_blocks=4096) 4TB special не хватило для 231TB архива, умножение записи - 4.08
- при тестировании полного архива (zfs_ddt_data_is_special, фича allocation_classes=enabled, redundant_metadata=none, dnodesize=legacy, special_small_blocks=0): 3000 снимков, data/tm 243TB, SSD/zfsmeta 941G
cache - кеширование L2ARC (только чтение); не поддерживается зеркало и raidz*; содержимое может быть использовано после перезагрузки (асинхронная синхронизация, отключается параметром модуля zfs l2arc_rebuild_enabled=0); устройство может быть добавлено и удалено на ходу, переведено в активный режим (online) и отключено (offline)

При создании пула он сразу импортируется, на нём создаётся корневая файловая система, которая сразу монтируется.

Имя пула должно начинаться с буквы и может содержать буквы, цифры, "_", "-", ".", ":", " ". Зарезервированы имена "mirror*", "raidz*", "cache", "spare*", "log", "draid*".

Пул, каждый vdev и каждое блочное устройство имеют уникальные GUID (не настоящие 128-битные в специальном формате, а просто случайные 64 бита).

Изменить количество блочных устройств в vdev невозможно (кроме расширения зеркала и разбиения состоящего из зеркал zpool), но можно добавить новый vdev в zpool. Также можно заменить устройство в vdev на большее (при наличии избыточности!): дождаться завершения лечения (resilver), повторить процедуру для оставшихся устройств (необходимо установить свойство пула autoexpand до замены первого диска - не сработало для LVM2). Данные распределяются по vdev, но ZFS не имеет средств ребалансировки, т.е. в новые vdev будут записаваться только новые данные. Кстати, до версии 0.8 лечение диска на 10ТБ потребует нескольких дней - лечение (как и scrub) идёт не последовательно, а по ссылкам инфраструктуры, так что замена одного диска вызывает полный проход по всем дискам. Да и в новых версиях идёт очень долго, если метаданные не вынесены в special на SSD ("19.8T scanned at 49.2M/s, 19.8T issued at 49.1M/s, 287T total, 65 days 21:30:16 to go").

В raidz (однопоточная?) производительность vdev на запись будет равна производительности 1 (самого медленного) диска, т.к. ZFS распределяет записи по vdev, не по конечным устройствам внутри него. При добавлении vdev распределение динамически увеличивается. Чтение может распараллеливаться внутри vdev. Придётся отказаться от традиции использовать LVM из нескольких подлежащих устройств в режиме RAID-0 (stripe) - надо добавлять в пул ZFS сами устройства.

В статье ZFS RAIDZ stripe width, or: How I Learned to Stop Worrying and Love RAIDZ рассказывается как в реальности раскладываются блоки данных, чётности и заполнителя и даётся таблица для расчёта "пропавшего" места для различных типов raidz, размера блока и размера сектора в процентах от сжатых данных. Если вкратце, то всё очень плохо - например, для raidz2 и сектора 4 КиБ:

блок 4 КиБ и 8 КиБ - 200% при любом количестве дисков - лучше использовать зеркало из 3
блок 16 КиБ и 32 КиБ - 50% при 6 и более дисках
блок 64 КиБ и выше - 13% при 18 дисках

Для получение больших IOPS необходимо делать маленькие группы, для экономии места - большие. Однако при таких потерях и большие группы не помогут (на нашем корпусе данных 75% файлов имеют размер менее 4КиБ).

Рекомендации по построению пула (Things Nobody Told You About ZFS 2013 год):

используйте HBA вместо RAID контроллеров
используйте SAS диски, а не SATA позади экспандеров без интерпозеров, SATA д.б. с поддержкой TLER/ERC
старайтесь использовать vdev с чётным количеством дисков данных (1 штука?)
не используйте raidz1 для дисков размером более 1ТБ
не используйте raidz1 из более 7 дисков
не используйте raidz2 из менее 6 и более 10 дисков
не используйте raidz3 из менее 7 и более 15 дисков
raidz2/3 безопаснее зеркала из 2 дисков, но медленнее; зеркало из 3 дисков быстрее и безопаснее
не смешивайте в vdev диски разного размера (расчёт объёма идёт по наименьшему)
не смешивайте в vdev диски разной скорости - скорость будет определяться самым медленным верблюдом
не смешивайте в zpool диски разного размера или разной скорости, кроме cache и log
не смешивайте в zpool vdev различного типа избыточности
не смешивайте в zpool vdev с различным количеством данных (алгоритм выделения места учитывает только процент заполнения устройства, они будут заполнены неравномерно)
не смешивайте в zpool диски с разным размером сектора, ZFS может неправильно определить размер сектора и писать блоки 512 байт на диски с сектором 4КиБ
диски горячей замены нужны в исключительных случаях
не безумствуйте - не делайте zpool размером 1ПБ, это можно, но не нужно

В реальности zpool - это дерево, которое начинается с корневого vdev, который состоит из vdev типа зеркало, raidz*, диск, файл, spare, cache, special и log. vdev типа зеркало и raidz* также могут включать vdev типа зеркало, raidz*, диск, файл. Вот только утилита создания не поддерживает такую конструкцию. Зато отладчик (zdb -C) показывает пул в виде дерева.

Метки ZFS присутствуют на физическом носителе, если на него производится запись данных (обычные диски в raidz, mirros и slog, но не spare). Для повышения надёжности на диске присутствуют 4 метки (по 256 КиБ) - две в начале диска и две в конце (по номерам, соответственно, 1, 2 и 3, 4). Кроме того, при обновлении данных в метках вначале обновляются первая и третья, а потом - вторая и четвёртая. Первая пара меток дополнительно содержит свободное пространство (8k) под EFI-метки и место под Boot Block Header (8k). За первой парой меток оставляется свободное пространство в 3.5 МиБ. Метка содержит описание и структуру устройств пула (кроме spare и cache) размером 112 КиБ и кольцевой буфер из 128 суперблоков размером 1 КиБ каждый. При изменении кофигурации суперблок перезаписывается на все устройства, иначе (закрытие транзакции) для перезаписи случайным образом выбирается не более 3 vdev; если выбранным оказался верхний vdev, то делается запись на все его физические устройства (пишутся 2 начальные метки, пишутся суперблоки, пишутся 2 конечные метки). При импорте по умолчанию выбирается корректный суперблок с наибольшим номером транзакции и временной меткой, но можно вручную выбрать любой из 128 (освобождённое место не используется на протяжении 3 транзакций, далее - как повезёт). Суперблок содержит указатель на MOS (Meta Object Set), GUID пула (?) и контрольную сумму GUID всех vdev. Указатель имеет длину 128 байт и содержит 3 DVA длиной 128 бит (Device Virtual Address: размер объекта длиной 24 бита в единицах - ashift - верхнего vdev, номер vdev длиной 32 бита, смещение в ashift длиной 63 бита; ashift=12 - блоки по 4 КиБ), флаги: индианистость, дедупликация, шифрование, сжатие, встроенные данные, тип контрольной суммы и пр., номер транзакции выделения места, номер транзакции создания ссылки, контрольная сумма. 2 и 3 DVA используются для копий метанных (данных), см. свойство файловой системы copies. Дерево косвенных блоков данных без использования экстентов, по 128 бит указатель на блок (по умолчанию размером 16 КиБ).

Каждый vdev разделен на логические разделы (metaslab), которые создаются автоматически при добавлении в zpool. Количество таких разделов определяется параметром metaslabs_per_vdev модуля zfs (по умолчанию - 200) и ? (получаются разделы по 2^34 байт). При поиске свободного места сначал выбирается vdev (предпочтение незаполненному vdev - metaslab_bias_enabled, поочередно (512 KiB?)), затем метаслаб в нём (группа метаслабов) исходя из процента заполненности, фрагментированности свободного места (metaslab_fragmentation_factor_enabled) и пр. (см. параметры модуля zfs). Рекомендуется убрать дисковую оптимизацию при использовании SSD (metaslab_lba_weighting_enabled=0). При поиске свободного места внутри метаслаба используется карта пространства (space map, список диапазонов с журнальной структурой - журнал выделений и освобождений, отсортированный по номеру группы транзакций; при чтении с диска в память формируется отсортированный список свободных пространств, который при записи преобразуется в журнал выделений). При выделении места из метаслаба, в котором более 4% свободного места, используется алгоритм первого подходящего, иначе самого подходящего, что значительно медленнее. Чтобы предотвратить это не допускайте уменьшения свободного места в пуле ниже 10%. Или metaslab_lba_weighting_enabled=0 и можно опускать до 5%. В сильно изменяющемся пуле необходимо держать 20% свободного пространства, в слабоизменяющемся (архив) достаточно 4%.

В файле /etc/zfs/zpool.cache хранится список известных пулов (не файловых систем, посмотреть: "zdb -C"), манипуляции

добавить пул в кеш вручную: zpool import -d /dev/disk/by-id/имя
регенерировать кеш: zpool set cachefile=/etc/zfs/zpool.cache имя-пула
стереть кеш: zpool set cachefile=none имя-пула

Переменные окружения для утилиты zpool:

ZFS_ABORT (сделать core по аварийному завершению)
ZFS_COLOR (сделать красиво)
ZPOOL_IMPORT_PATH (аналог "zpool import -d")
ZPOOL_IMPORT_UDEV_TIMEOUT_MS (время ожидания готовности устройства)
ZPOOL_STATUS_NON_NATIVE_ASHIFT_IGNORE (не выдавать предупреждение)
ZPOOL_VDEV_NAME_GUID (аналог "zpool status -g")
ZPOOL_VDEV_NAME_FOLLOW_LINKS (аналог "zpool status -L")
ZPOOL_VDEV_NAME_PATH (аналог "zpool status -P")
ZFS_VDEV_DEVID_OPT_OUT (для совместимости с версией от Illumos)
ZPOOL_SCRIPTS_ENABLED (?)
ZPOOL_SCRIPTS_PATH (задаёт путь поиска скриптов для "zpool status -c"; по умолчанию "~/.zpool.d:/etc/zfs/zpool.d"
ZPOOL_SCRIPTS_AS_ROOT (позволять суперпользователю выполнять "zpool status -c")
ZFS_MODULE_TIMEOUT (10; секунд ожидания появления /dev/zfs; 0 - не ждать, меньше нуля - ждать вечно)

Неизменяемые свойства пула (статистика и т.п.):

allocated: выделенное место (физически)
bcloneratio: ((bclonesaved + bcloneused) * 100) / bcloneused
bclonesaved: сколько мы съэкономили места с помощью клонирования блоков
bcloneused: сколько места используют клонированные блоки
capacity: выделенное место в процентах от всего объёма пула
dedupratio: коэффициент дедупликации блоков
expandsize: место на используемых устройствах, которое можно использовать для расширения пула ("zpool online -e")
fragmentation: фрагментация свободного места в процентах (поделённое на равные сегменты 128 КиБ считается фрагментированным на 50%; изменение размера сегмента вдвое изменяет фрагментированность на 10%; гистограммы распределения размеров свободных сегментов для каждого метаслаба можно посмотреть с помощью "zdb -mm имя-пула")
free: свободное место в пуле физическое (без учёта чётности, копий, резервирования (spa_slop_shift), квот, сжатия и т.д.)
freeing: асинхронно освобождаемое место после удаления набора данных (файловая система, снимок и т.д.)
guid: уникальный идентификатор пула
health: состояние пула (и устройств):
- ONLINE - всё хорошо
- DEGRADED - часть устройств не работает или слишком много ошибок, но данные пока в целости и сохранности
- FAULTED - слишком много устройств не работает или проблема с метаданными, часть данных можно извлечь
- OFFLINE - выведено из эксплуатации (zpool offline)
- REMOVED - устройство извлечено на ходу
- UNAVAIL - устройство недоступно при импорте пула
leaked: место, которое не удалось освободить из-за ошибок
load_guid: уникальный идентификатор пула на время загрузки (меняется при import, не меняется по reguid)
size: размер пула физический
unsupported@feature...: свойство включено, но не поддерживается реализацией

Свойства пула, которые можно задать при создании, импортировании и изменении (свойства требуют места в пуле и при его заполнении их невозможно изменить):

altroot: указывает корень файловой системы вместо "/"; используется при импорте незнакомого пула или при нестандартной загрузке; влечёт "cachefile=none", поэтому не сохраняется (можно задать cachefile вручную); только при создании пула и импорте
ashift: log2 от размера сектора (9 - 512, 12 - 4096); zfsonlinux поддерживает ashift равный 0 (определяется системой самостоятельно, не советую) и от 9 до 16; только при создании пула и добавлении устройства в пул; для современных дисков рекомендуется задать на всякий случай "-o ashift=12"; vdev в пуле могут иметь различный ashift
autoexpand: автоматическое увеличение размера пула при увеличении подлежащих устройств; необходимо установить до увеличения подлежащего устройства; по умолчанию - "off"; не сработало для LVM2 (исправлено в новой версии?)
autoreplace: автоматически форматировать и использовать запасное (spare) устройство, иначе придётся использовать "zpool replace"; по умолчанию - "off"; требует настройки vdev_id.conf и работы сервиса zed (ZFS Event Daemon); совершенно бесчеловечная логика (будет отформатировано любое устройство, находящееся "там же" где и заменяемое), сдобренная наличием в Solaris сервиса FMA, которого нет в Linux - не пользуйтесь никогда
autotrim: использовать TRIM/UNMAP; по умолчанию - "off"
bootfs: [имя-пула/]имя-файловой-системы; определяет файловую систему для загрузчика
cachefile: имя-файла или none или "" (по умолчанию); кеш конфигурации пула; по умолчанию - "/etc/zfs/zpool.cache"; см. "zpool import -c"; несколько пулов могут использовать общий файл, но с осторожностью
comment: строка описания пула (до 32 символов ASCII); доступна (из кеша?) при падении пула
compatibility: требования к соблюдения совместимости по фичам пула; off - нет требований; legacy - всё запрещено; список через запятую имён файлов в /etc/zfs/compatibility.d/ или /usr/share/zfs/compatibility.d/; каждый файл содержит список фич через пробел или запятую (NL?); разрешены только фичи, содержащиеся во всех перечисленных файлах
dedupditto (удалено): 0 (по умолчанию) или число от 100 (?); при превышении количества ссылок на дедуплицированный блок создаётся дополнительная копия блока данных
delegation: предоставлять непривилегированному пользователю права доступа в соответствии с описанием файловой системы (?); по умолчанию - "on"
failmode: что делать в случае катастрофы с пулом (это надо установить до катастрофы)
- wait (по умолчанию): блокировать ввод/вывод пока устройство не станет доступно и флажки ошибок сброшены (zpool clear)
- continue: возвращать ошибку для новых операций записи, операции записи в очереди блокируются, читать по возможности
- panic: выводить сообщение и вызывать kernel panic
feature@имя-фичи=состояние: enabled - включено, active - задействавано, disabled - административно выключено; при изменении можно только включить
listsnapshots: показывать список снимков по команде "zfs list" (в любом случае их можно посмотреть по "zfs list -t snapshot"); по умолчанию - "off"
multihost: осуществлять проверку, что пул уже кем-то импортирован; по умолчанию - "off"; требуется hostid; контроля за отдельными устройствами хранения нет
readonly: импортировать пул только на чтение (off, on)
version: версия пула; не имеет смысла после перехода к системе фич

Пул может иметь пользовательские свойства, которые не влияют на поведение ZFS. Имя пользовательского свойства должно содержать ":" и быть короче 256 символов (байт?). Предполагается, что имя начинается с DNS имени в обратном порядке. Значение может быть произвольной строкой до 8192 байт.

Отдельные vdev также имеют встроенные и пользовательские свойства (zpool get -o all all имя-пула all-vdevs) начиная с версии 2.2:

неизменяемая статистика (размеры в байтах, счётчики за текущую сессию):
- allocated - размер распределённого места
- ashift
- asize - распределяемый размер vdev
- capacity - процент использования
- checksum_errors
- children - список подчинённых устройств через запятую
- claim_bytes
- claim_ops
- devid - ?
- encpath - путь к устройству с использованием корзины
- expandsize - насколько можно расширить vdev
- fragmentation - процент фрагментации (чудное понятие фрагментации описано выше)
- free - остаток свободного места
- free_bytes
- free_ops
- fru - модель
- guid
- initialize_errors
- null_bytes
- null_ops
- numchildren - количество подчинённых устройств
- parent - имя пула или верхнего устройства
- parity - сколько контрольных сумм для избыточности
- physpath - физический путь к устройству
- psize - физический размер vdev
- read_bytes
- read_errors
- read_ops
- removing - удаляется из пула
- size - размер vdev (asize и psize недостаточно?)
- state - состояние (online, faulted, offline)
- trim_bytes
- trim_ops
- write_bytes
- write_errors
- write_ops
средства управления (свойства корневого устройства наследуются листьями):
- allocating - позволяет запретить выделение места с устройства
- bootsize - ?, сколько места резервировать для системного раздела EFI
- checksum_n и checksum_t - сколько ошибок n (10) контрольных сумм за t (600) секунд допустимо
- comment - текст до 8192 символов (байт?)
- failfast - ?
- io_n и io_t - сколько ошибок n (10) ввода-вывода за t (600) секунд допустимо
- path - путь к файлу устройства
пользовательские свойства - аналогично свойствам пула

zpool -? # вывести список команд.

zpool version # вывести версию ZFS (аналогично "zpool -V" или "zpool --version").

zpool create [ключи] имя-пула [тип-vdev] устройство1 ... [тип-vdev устройствоN ...] ... # создать пул и корневую файловую систему, администратор ответственнен за неиспользование устройств одновременно в 2 пулах; ключи:

-d (по умолчанию используются все имеющиеся фичи, если не использван этот ключ)
-f (настоять на создании пула несмотря на проблемы)
-m {none|legacy|путь-монтирования} (по-умолчанию корневая файловая система монтируется в "/имя-пула"; none - не монтировать; legacy - использовать /etc/fstab, в котором указано x-systemd.requires=zfs-import.target)
-n (только демонстрация, без настоящего создания)
-o свойство-пула=значение (см. ниже; необходимо также включить нужные фичи, если использовался ключ "-d")
-O свойство-корневой-файловой-системы=значение (см. zfs)
-R корень (эквивалент "-o cachefile=none,altroot=корень")
-t временное-имя-пула (на случай коллизий имён)

zpool get список-свойств-через-запятую|all [имя-пула [all-vdevs|имя-vdev]] # выводится имя пула, имя свойства, значение и источник, ключи:

-p (выводить числа полностью)
-H (выводить в формате для скриптов, без заголовков)
-o список-полей-через-запятую (поля: name (имя пула), property (имя свойства), value (значение), source (default или local - отличное от умолчания))

zpool set имя-свойства=значение имя-пула [имя-vdev] # изменить значение свойства пула или vdev на ходу.

zpool status [имя-пула ...] [интервал [отсчётов]] # показывает состояние (см. health) пула и фоновых задач (scrub и resilver); осторожно - пытается обратиться ко всем устройствам, что может вызвать большие задержки; ключи:

-c [скрипт[,...]] (для каждого vdev выполнить скрипт из ~/.zpool.d или /etc/zfs/zpool.d (/usr/libexec/zfs/zpool.d) (ZPOOL_SCRIPTS_PATH, ZPOOL_SCRIPTS_AS_ROOT, VDEV_PATH), результат (имя=значение) вывести как дополнительную колонку; в поставке: ata_err, cmd_to, defect, dm-deps, enc, encdev, fault_led, health, hours_on, iostat, iostat-10s, iostat-1s, label, locate_led, lsblk, media, model, nonmed, nvme_err, off_ucor, pend_sec, pwr_cyc, realloc, rep_ucor, r_proc, r_ucor, serial, ses, size, slot, smart, smart_test, smartx, temp, test_ended, test_progress, test_status, test_type, upath, vendor, w_proc, w_ucor)
-D (гистограмма статистики дедупликации (выдаётся мгновенно))
-i (показать состояние инициализации)
-g (показать GUID вместо имён (может быть использован в zpool командах detach, offline, remove, replace))
-LP (показать настоящее имя устройства)
-p (выводить точные значения)
-s (вывести количество медленных (медленнее zio_slow_io_ms) операций ввода/вывода
-t (вывести состояние TRIM/UNMAP)
-T d (выводить время в формате даты)
-T u (выводить время во внутреннем формате Unix)
-v (подробная информация об ошибках после последнего scrub)
-x (вывести состояние очень кратко)

zpool list [имя-пула] ... [интервал [отсчётов]] # выдать список пулов с информацией о состоянии и заполненности, ключи:

-g (показать GUID вместо имён (может быть использован в zpool командах detach, offline, remove, replace)))
-H (формат для скриптов, без заголовков)
-LP (показать настоящее имя устройства)
-o список-свойств (по умолчанию "name,size,allocated,free,checkpoint,expandsize,fragmentation,capacity,dedupratio,health,altroot")
-p (выводить точные значения)
-T d (выводить время в формате даты)
-T u (выводить время во внутреннем формате Unix)
-v (подробная статистика об отдельных устройствах vdev)

zpool iostat [имя-пула-и/или-vdev] ... [интервал [отсчётов]] # логическая статистика ввода/вывода (для физической статистики см. iostat), информация о ёмкости, свободном месте, операциях ввода и вывода, пропускной способности ввода и вывода, числа двоичные, ключи:

-c [скрипт[,...]] (для каждого vdev выполнить скрипт из ~/.zpool.d или /etc/zfs/zpool.d (используеются ZPOOL_SCRIPTS_PATH, ZPOOL_SCRIPTS_AS_ROOT; устанавливаются VDEV_PATH, VDEV_UPATH, VDEV_ENC_SYSFS_PATH), результат[ы] (имя=значение) вывести как дополнительную колонку; в поставке: ata_err, cmd_to, defect, dm-deps, enc, encdev, fault_led, health, hours_on, iostat, iostat-10s, iostat-1s, label, locate_led, lsblk, media, model, nonmed, nvme_err, off_ucor, pend_sec, pwr_cyc, realloc, rep_ucor, r_proc, r_ucor, serial, ses, size, slot, smart, smart_test, smartx, temp, test_ended, test_progress, test_status, test_type, upath, vendor, w_proc, w_ucor)
-g (показать GUID вместо имени (может быть использован в zpool командах detach, offline, remove, replace))
-H (в формате для скриптов, без заголовков)
-l (информация об операциях ввода и вывода, пропускной способности ввода и вывода, о средних задержках ввода и вывода, общих и дисковых и в синхронной очереди и в асинхронной очереди и в очереди проверки и в очереди TRIM)
-LP (показать настоящее имя устройства)
-n (вывести заголовки только 1 раз, иначе на каждой странице)
-p (вывести точные значения - байты и наносекунды)
-q (информация об операциях ввода и вывода, пропускной способности ввода и вывода, активных и не очень задержках ввода и вывода (штук на конец интервала) в синхронной очереди и в асинхронной очереди и в очереди проверки)
-r (вывести гистограмму размеров индивидуальных и агрегированных запросов к листьевым vdev, не к блочному устройству)
-T d (выводить время в формате даты)
-T u (выводить время во внутреннем формате Unix)
-v (подробная статистика о листьевых vdev)
-w (гистограмма задержек ввода и вывода, общих и дисковых в синхронной очереди и в асинхронной очереди и в очереди проверки)
-y (опустить вывод статистики с момента загрузки в первой строке)

zpool import # выдать список экспортированных пулов, доступных для импорта, имена, уникальные идентификаторы, топологию и состояние; ключи:

-c имя-кеш-файла (искать в кеш-файле вместо реальных устройств)
-d имя-каталога-устройств (можно указывать несколько раз)
-D (искать только уничтоженные пулы ("zpool destroy"))

zpool import [имя-пула | идентификатор-пула [новое-имя-пула]] # перед использованием для монтирования файловой системы пул д.б. импортирован; при импорте в режиме только чтение не проигрывается ZIL и нельзя изменять свойства; при импорте много пишется (txg_sync - 100% ЦП) на носитель (6ГБ со скоростью 300 МБ/сек для файловой системы в 10ТБ); ключи:

-a (все известные пулы)
-c имя-кеш-файла
-d имя-каталога-устройств (можно указывать несколько раз)
-f (применить насилие: пулы с ошибками или неэкспортированные)
-fD (импортировать только уничтоженные пулы ("zpool destroy"))
-F (попытаться откатить несколько последних транзакций перед импортом; данные теряются безвозвратно)
-Fn (проверить возможность откатить несколько последних транзакций, но не откатывать)
-FX (попытаться откатить несколько последних транзакций перед импортом даже если транзакция неконсистентна (освобождённое место резервируется только на протяжении следующих 3 транзакций, далее - как повезёт); данные теряются безвозвратно; возможно появление ошибок контрольной суммы)
-FXT номер-транзакции (попытаться откатить на указанную транзакцию)
-l (запросить ключи зашифрованных наборов данных - keylocation)
-m (если отсутствует SLOG (ZIL) устройство, то всё равно импортировать)
-N (импортировать без монтирования)
-o свойство-пула=значение
-o опции-монтирования (да, тоже "-o")
-R корень (эквивалент "-o cachefile=none,altroot=корень")
-s (не использовать кеш libblkid, использовать ZPOOL_IMPORT_PATH)
-t (новое имя пула является временным, подразумевает "-o cachefile=none" )
--rewind-to-checkpoint (откатить пул до контрольной точки; вернуть утраченное невозможно, если не использовать readonly)

zpool destroy [-f] имя-пула # размонтировать файловые системы и уничтожить пул, подтверждения не запрашивается.

zpool labelclear [-f] устройство # затереть метку zfs; заодно удаляет GPT, созданную zfs

zpool export имя-пула # отпустить пул перед переносом дисков на другой сервер - данные из кеша сбрасываются на диск, файловые системы размонтируются, устройства помечаются как экспортированные, помечается запрет на автоматический импорт и монтирование, пул удаляется из кеша; не экспортируется без ключа "-f", если к пулу приписано разделяемок устройство горячего резерва и оно используется; пул недоступен для работы пока его не импортируют явно, если сервер умер и устройства хранения приходится переставлять без экспорта, то импортировать придётся с ключом "-f"; ключи:

-f (размонтировать командой "umount -f" (в Linux не работает); не помогает, если используется том)
-a (все пулы)

zpool add имя-пула устройство ... # добавить vdev к пулу, ключи:

-f (применить насилие)
-g (показать GUID вместо имён (может быть использован в zpool командах detach, offline, remove, replace))
-LP (показать настоящее имя устройства)
-n (только демонстрация, без настоящего добавления)
-o ashift=12 (у каждого vdev свой, не наследуется; другие свойства не реализованы)

zpool remove имя-пула устройство ... # удалить диск замены, кеш (L2ARC), SLOG (ZIL) устройство, vdev (включая dedup и special, но не raidz); данные с удаляемых vdev переписываются на оставшиеся устройства в фоновом режиме (см. zpool status); требует фичи device_removal; скорость высокая (346G copied out of 5.31T at 1.19G/s); вместо старого vdev в таблице остаётся устройство indirect-1; ключи:

-n[p] (только демонстрация; выводит предполагаемый размер таблицы отображения в памяти после удаления; "-p" - размер в байтах)
-w (ожидать завершения переноса данных)
-s (прекратить перенос данных)

zpool scrub имя-пула # запуск или продолжение в фоновом режиме (состояние смотреть "zpool status") проверки контрольных сумм каждой копии каждого используемого логического блока и проверку чётности для RAIDZ (а при обычном чтении делается?), лечение по возможности; рекомендуется раз в неделю/месяц; если совсем всё плохо: "zpool import -o readonly=on имя-пула; zpool scrub имя-пула"; в версии до 0.8 scrub (и лечение) осуществляет проход по структуре, а не последовательное чтение, причём однопоточное синхронное, т.е. безумно медленно; проверка структуры производится по минимому - лишь бы можно было пройти; scrub производит 2 типа ввода/вывода: чтение каталогов и dnode производится с помощью обычного механизма (предварительное загрузка, синхронное чтение через механизм ARC, без всяких проверок, не учитывается в отчёте сканирования) и асинхронное чтение всех копий блоков с проверкой (учитывается в отчёте сканирования, настраивается с помощью параметров модуля вплоть до отключения); можно запустить только одну проверку пула одновременно: ключи:

-s (остановить, продолжить нельзя)
-p (приостановить)
-w (ждать завершения)
-e (проверять только файлы с ранее найденными ошибками; требуется фича head_errlog)

Примеры производительности

версия 0.6

массив из обычных дисков, собранный в LSI/LVM, 500 снимков, без нагрузки
  scan: scrub in progress since Thu Jan 26 18:36:45 2017
    877M scanned out of 40.8T at 5.10M/s, (scan is slow, no estimated time)
    0 repaired, 0.00% done

массив из быстрых дисков (SAS 10k rpm), собранный в LSI/LVM, 100 снимков, DDT, без нагрузки
  scan: scrub in progress since Fri Jan 27 22:35:58 2017
    20.5G scanned out of 13.2T at 35.8M/s, 107h17m to go
    0 repaired, 0.15% done

2 масива из разных дисков, 15 снимков, DDT, 10.5 ТБ (ALLOC) за 23.5 часа, без нагрузки, пробовал (без пользы)
   128 в /sys/module/zfs/parameters/zfs_top_maxinflight
   1 в /sys/module/zfs/parameters/zfs_no_scrub_prefetch

  299G scanned out of 9.56T at 52.3M/s, 51h36m to go
  384G scanned out of 9.56T at 50.4M/s, 53h6m to go
  640G scanned out of 9.56T at 47.0M/s, 55h20m to go
  884G scanned out of 9.56T at 45.6M/s, 55h28m to go
  1.09T scanned out of 9.56T at 44.8M/s, 55h6m to go
  2.22T scanned out of 9.56T at 47.6M/s, 44h50m to go
  2.59T scanned out of 9.56T at 41.2M/s, 49h18m to go
  5.18T scanned out of 9.56T at 71.9M/s, 17h44m to go
  6.17T scanned out of 9.56T at 84.1M/s, 11h43m to go
  7.52T scanned out of 9.56T at 100M/s, 5h56m to go # оба массива читают по 600 МБ/сек
  8.20T scanned out of 9.56T at 108M/s, 3h40m to go
  8.63T scanned out of 9.56T at 113M/s, 2h24m to go
  8.84T scanned out of 9.56T at 115M/s, 1h50m to go
  9.28T scanned out of 9.56T at 117M/s, 0h42m to go
  9.41T scanned out of 9.56T at 118M/s, 0h21m to go

версия ?

2 массива из разных дисков (RAID6 из 17 дисков SATA 2TB LFF 7200 в LSI MegaRAID), собранных в LVM (stripe), без снимков, без DDT, без нагрузки
  scan: scrub in progress since Fri Oct 26 19:48:04 2018
	5.58T scanned out of 9.67T at 1.36G/s, 0h51m to go
	0B repaired, 57.72% done

3 массива из разных дисков, добавлялись последовательно по мере наполнения, 28.9TB (ALLOC), без нагрузки
    2.61T scanned out of 28.9T at 59.1M/s, 129h36m to go
    4.33T scanned out of 28.9T at 59.1M/s, 121h8m to go
    5.06T scanned out of 28.9T at 57.8M/s, 120h18m to go
    10.7T scanned out of 28.9T at 83.8M/s, 63h29m to go
    17.0T scanned out of 28.9T at 115M/s, 30h16m to go
    19.0T scanned out of 28.9T at 121M/s, 23h47m to go
  scan: scrub repaired 0 in 57h52m with 0 errors on Mon Mar 20 11:34:28 2017

реальный архив, много снимков, DDT, без нагрузки
NAME           SIZE  ALLOC   FREE  EXPANDSZ   FRAG    CAP  DEDUP  HEALTH  ALTROOT
time_machine   116T  69.1T  46.9T         -    22%    59%  1.52x  ONLINE  -

  scan: scrub repaired 0 in 236h0m with 0 errors

версия 2.1.7
2 массива из дисков (RAID6 из 18 дисков SAS 10TB LFF 7200 в LSI MegaRAID), собранных в LVM (stripe), l2arc и lvmcache на SSD
  scan: scrub in progress since Thu Mar 14 18:42:02 2024
	4.28T scanned at 57.9M/s, 3.51T issued at 47.6M/s, 287T total
	0B repaired, 1.23% done, 72 days 05:27:09 to go

версия 2.2
2 массива из дисков (RAID6 из 17 дисков SAS 16TB LFF 7200 в LSI), собранных в LVM (stripe), SSD для метаданных, много снимков, DDT, без нагрузки
  scan: scrub in progress since Wed Mar 13 22:23:44 2024
	176T / 244T scanned at 2.54G/s, 95.3T / 244T issued at 1.38G/s
	0B repaired, 39.11% done, 1 days 06:41:06 to go

zpool resilver имя-пула # запуск в фоновом режиме проверки и исправления контрольных сумм каждой копии каждого используемого блока; в отличие от scrub проверяет не все устройства, а только недавно добавленные или подменённые; приостановки нет, при запуске во время выполнения начинает с начала.

zpool attach имя-пула старое-vdev устройство # добавить устройство к vdev, простое vdev превращается в зеркало (начинается лечение), raidz расширить нельзя, ключи:

-f (применить насилие)
-o ashift=12 (у каждого vdev свой, не наследуется, другие свойства пула не поддерживаются)
-s (при добавлении контрольные суммы не проверяются, по окончании запускается scrub)
-w (ждать завершения лечения)

zpool detach имя-пула старое-устройство # извлечь устройство из зеркала, для временного извлечения рекомендуется "zpool offline".

zpool replace имя-пула старое-устройство [устройство-замены] # эквивалент процедуры: подсоединить устройство замены (mirror или raidz), дождаться завершения лечения, отсоединить старое устройство; устройство замены можно не указывать, если неисправное устройство уже было заменено новым на том же месте; ключи:

-f (применить насилие)
-o ashift=12 (у каждого vdev свой, не наследуется, другие свойства пула не поддерживаются)
-s (при добавлении контрольные суммы не проверяются, по окончании запускается scrub)
-w (ждать завершения лечения)

zpool clear [--power] имя-пула [устройство] # сбросить счётчики ошибок; пул может быть автоматически возвращён в работу; "--power" или переменная окружения ZPOOL_AUTO_POWER_ON_SLOT включает питание слота (но как?!).

zpool offline [--power] имя-пула устройство-хранения # объявить устройство нерабочим или сбойным (остаётся сбойным даже после импортирования), ключи:

-t (временно, до перезагрузки)
-f (объявить устройство сбойным)

zpool online [--power] имя-пула устройство-хранения # объявить устройство рабочим, ключ "-e" - расширение доступного к распределению на устройстве места до полного.

zpool reopen [имя-пула] # заново открыть (зачем? случайно выдернули устройство и тут же вставили его обратно?) все vdev пула, ключ "-n" - не возобновлять идущую процедуру проверки (scrub).

zpool reguid # сгенерировать новый GUID пула (длительный процесс?).

zpool split имя-пула новый-пул [устройство ...] # только для пула из зеркал и пул не д.б. в состоянии лечения; отщепить от каждого зеркала указанные устройства (по умолчанию последнее устройство) и собрать из них новый пул (GUID одинаковый? пулы останутся из зеркал?), ключи:

-g (показать GUID (может быть использован в zpool командах detach, offline, remove, replace))
-LP (показать настоящее имя устройства)
-l (будет запрошен пароль шифрования для нового устройства)
-n (только демонстрация, без настоящего разбиения)
-o свойство-пула=значение
-R корень (эквивалент "-o cachefile=none,altroot=корень")

zpool upgrade # выдать список пулов, которые можно перевести на новую версию или добавить фичу.

zpool upgrade -v # выдать список поддерживаемых версий и фич.

zpool upgrade {имя-пула | -a} # перевод пула на новую версию с добавлением поддержки всех фич, вернуться нельзя (есть более гуманный способ: "zpool set feature@...=enable").

zpool history [имя-пула] # вывести историю команд, история хранится в пуле и её нельзя отключить (а если пул заполнен на 100%?), используется кольцевой буфер (32 МиБ?); отличный способ подсмотреть, что там сделала send -r/receive; ключи:

-i (дополнительно выводить внутренние события)
-l (дополнительно выводить имя пользователя и имя хоста)

zpool events [имя-пула] # выдать список событий zfs, сгенерированных модулем ядром zfs и используемых zed (ошибки, зависания), см. zpool-events(8); сюда же попадают "события" создания записи в history; ключи:

-c (очистить журнал событий)
-f (вывести накопившиеся и ждать следующих)
-H (в формате для скриптов, без заголовков)
-v (с подробностями)

zpool checkpoint имя-пула # создать контрольную точку для пула (может существовать только 1 точка); откатиться можно командой "zpool import --rewind-to-checkpoint"; наличие контрольной точки запрещает использование команд remove, attach, detach, split и reguid; команда "zpool status" показывает наличие контрольной точки; команда "zpool list" показывает количество места, потраченного на контрольную точку; ключи:

-d (удалить)
-dw (удалить с ожиданием)

zpool initialize имя-пула [устройство] # начать или продолжить заполнение незанятого пространство в пуле ерундой (а зачем?); ключи:

-c (прекратить)
-s (приостановить; продолжение с достигнутой точки по команде "zpool initialize")
-u (сбросить достигнутую точку инициализации)
-w (ждать завершения)

zpool sync [имя-пула] # все изменённые данные записать из ОП на устройство (не в SLOG/ZIL).

zpool trim имя-пула [имя-устройства] # ручная инициализация или продолжение посылки команд TRIM/UNMAP на устройство для всех неиспользуемых секторов; имеется свойство пула для автоматической посылки - autotrim; "zpool status -t" показывает устройства, которые не поддерживают TRIM/UNMAP (trim unsupported) или которые поддерживают, но ожидают ручной инициализации (untrimmed); как это выключить насовсем? ключи:

-c (прекратить)
-d (TRIM с гарантированным уничтожением ненужных данных)
-r скорость (байт в секунду для vdev)
-s (приостановить; продолжение с достигнутой точки по команде "zpool trim")
-w (ждать завершения)

zpool wait имя-пула [интервал-информирования] # ждать прекращения фоновых операций по завершению, прекращению или приостановке операции или уничтожению или экспорту пула; ключи:

-H (вывод информации в формате для скриптов, без заголовков)
-p (вывести точные значения - байты и наносекунды)
-T d (выводить время в формате даты)
-T u (выводить время во внутреннем формате Unix)
-t тип-активности[,...] (типы активности: discard - удаление контрольной точки, free - freeing становится равно нулю, initialize, replace, remove, resilver, scrub, trim - ручной запуск TRIM/UNMAP)

Кеш в памяти - ARC

Для ускорения работы используется кеш данных и метаданных в памяти - ARC (Adaptive Replacement Cache). ARC является модифицированной реализацией запатентованного IBM механизма кеширования как последних (LRU - Least Recently Used), так и частых запросов (LFU - Least Frequently Used), поддерживаются следующие очереди:

MRU Cache - последние используемые записи в ARC
MFU Cache - часто используемые записи в ARC
Ghost MRU - указатели, выдавленных из MRU обратно на диск или в L2ARC записей; позволяют быстрее обычного вернуть их обратно
Ghost MFU - указатели, выдавленных из MFU обратно на диск или в L2ARC записей; позволяют быстрее обычного вернуть их обратно

Кеш блоков общий. На один и тот же блок могут быть ссылки из MRU и MFU. Ghost MRU и Ghost MFU ведутся и при отсутствии L2ARC - блоки легче извлекать из пула при наличии этих ссылок. При извлечении блоков по ссылке из Ghost MRU расширяется список MRU за счёт MFU, и наоборот. Таким образом кеш автоматически подстраивается под тип нагрузки. Размер кеша может меняться по требованию ядра (и в Linux?), блоки имеют разный размер, блоки могут быть заблокированы от удаления (?).

Место в ARC расходуется на данные, метаданные и вспомогательную информацию. Тип кешируемой информации можно установить с помощью свойств набора данных primarycache. Статистика ARC и L2ARC доступна через /proc/spl/kstat/zfs/arcstats, в удобном виде показывается утилитой arc_summary.py (в новых версиях просто arc_summary). По умолчанию размер используемой ОП колеблется от 1/32 (zfs_arc_min) до 1/2 (zfs_arc_max) всей ОП. Если предполагается запуск программ, требовательных к ОП, рекомендуется заранее ограничить ARC. Некоторые программы перед запуском проверяют размер свободной памяти и отказываются запускаться при её недостатке, хотя в реальности память могла быть освобождена системой по требованию. Некоторые программы могут требовать больших непрерывных сегментов памяти или huge pages, которые ARC без настроек фрагментирует.

По умолчанию только 3/4 ARC может использоваться под метаданные (включая таблицу дедупликации), объём метаданных оценивается как 1% от ёмкости хранилища. Изменить можно параметром zfs_arc_meta_limit модуля zfs или командой "zfs set primarycache=metadata|all|none".

ARC в реализации ZFS on Linux не связан с системой кеширования ОС (страницы виртуальной памяти), например, команда free показывает ARC в графе used. Это требует тщательного планирования и управления (лучше не запускать на файловом сервере требовательных к ОП программ). Фрагментация памяти в Linux приводит к тому, что в реальности используется больше памяти, чем показывается (и как представляется управляющей программе ARC). mmap() не умеет брать из ARC, только из страниц виртуальной памяти.

В ZoL 0.7 вместо отображения страниц используется списочная структура ARC Buffer Data (ABD), что теоретически позволяет бороться с фрагментацией, последствия не исследовал.

В OpenZFS 2.2 сделали адаптивную очистку и удалили множество ручных настроек. Последствия пока непонятны.

Кеш второго уровня на SSD - L2ARC

Кеш ARC может быть расширен (только для операций чтения) с помощью быстрого SSD устройства - L2ARC (second level ARC). L2ARC может входить в пул с момента создания или быть добавлен в пул и убран из пула без остановки его работы:

zpool add имя-пула cache устройство

Место в L2ARC расходуется на данные, метаданные (включая таблицу дедупликации) и вспомогательную информацию. Тип кешируемой информации можно установить с помощью свойств набора данных secondarycache. Нежелательно превышать 5 (?) размеров ARC: место в ARC расходуется на ссылки на L2ARC (Ghost, ARC_SPACE_L2HDRS), причём оно не освобождается даже под давлением - производительность может уменьшиться. Статистика ARC и L2ARC доступна через /proc/spl/kstat/zfs/arcstats, в удобном виде показывается утилитой arc_summary.py (в новых версиях просто arc_summary). Статистика L2ARC общая для модуля zfs, не обнулишь, пока не выгрузишь модуль.

Потеря устройства не ведёт к потере данных (кешируется только чтение). Можно использовать несколько L2ARC устройств (без страйпинга, заполняются по очереди). Зеркало и raidz не поддерживаются.

Может заполняться несколько часов.

ARC - глобальный, L2ARC - привязан к пулу, неразделяемый, а ссылки на L2ARC в ARC занимают общее место.

Samsung 840 Pro теряет 1% жизни в день или два (настроенная дедупликация - L2ARC размером 300GB (529.86 GiB сжатого до 200.24 GiB), Hit Ratio - 8.03%, входящий поток 1Gbps). В общем, если нет хотя бы Intel DC S3600, то установить secondarycache=metadata, иначе будет тормозить, а потом умрёт.

После появления возможности выделить под метаданные отдельный быстрый и устойчивый к истиранию SSD я не использую L2ARC.

Управление синхронной записью - ZIL

Асинхронная запись кешируется в ОП (ARC), при коммите транзакции (transaction group commits, каждые N секунд или другие условия) накопленные (грязные) данные сбрасываются на устройство постоянного хранения. Но запросы на синхронную запись должны быть записаны на устройство постоянного хранения немедленно с подтверждением, для этого используется механизм временного хранения ZIL (ZFS intent log). По умолчанию ZIL располагается на устройствах хранения обслуживаемого пула (отдельная структура для каждого набора данных - файловой системы или тома). Внешний ZIL читается только при восстановлении после падения сервера. После размещения данных из ARC на постоянное место хранения место во внешнем ZIL освобождается. Структуры ZIL в ОП накапливают все записи, относящиеся к незавершённым транзакциям (все записи, т.к. неизвестно какие из них будут синхронными) Операции над метаданными (создание, переименование) по умолчанию являются синхронными. Набор данных может иметь свойство "sync=always", что объявляет каждую запись синхронной, или "sync=disabled", что отключает логику внешнего ZIL, но структуры ZIL в ОП продолжают накопление записей, которые сбрасываются на устройство хранения при завершении транзакции.

ZFS имеет механизм обхода ZIL для потоковой нагрузки - данные пишутся сразу на место. При монтировании NFS с флагом async большинство записи проходит мимо ZIL. Локальная запись обычно также асинхронна.

При необходимости можно выделить специальное устройство SLOG (ZIL device), учитывая режим работы - однопоточная синхронная запись (для одного dataset) и защита от отключения питания - рекомендуется STEC ZeusRAM (ОП с батарейкой), SSD SLC и т.п. Размер определяется максимальным трафиком записи за тройное время между комитами транзакций (по умолчанию параметр zfs_txg_timeout модуля zfs был 30, потом 5, потом 10), но не более размера ARC. Для MLC/TLC SSD для продления его жизни надо взять устройство (раздел) побольше. Потеря SLOG приведёт к потере последних данных (но не метаданных), пул не будет импортироваться автоматически (можно импортировать вручную), поэтому желательно использовать vdev типа зеркало (raidz не поддерживается). Можно поставить несколько vdev типа slog - они будут работать паралллельно.

Статистику можно посмотреть в /proc/spl/kstat/zfs/zil.

Советы:

для параноиков: если вы дорожите данными, то выключите кеширование записи (writeback cache) на всех устройствах пула и установите sync=always (standard)
для пофигистов: если потеря нескольких секунд данных неважна, то ZIL можно выключить ("zfs set sync=disabled имя-пула/имя-файловой-системы", ранее был параметр zil_disable модуля zfs) - файловая система не будет разрушена в любом случае, т.к. транзакции ещё соблюдаются

Основные настройки:

свойство набора данных logbias=throughput - все данные пишутся сразу на место
параметр zfs_immediate_write_sz (32768) модуля zfs - при отсутствии выделенного ZIL устройства (slog) записи размером более указанного пишутся сразу на место, во внешнем ZIL будут только ссылки; если размер данных больше размера блока, то данные для простоты всё-таки пишутся во внешний ZIL (исправили?); при наличии slog данные любого размера будут писаться на него
параметр zfs_nocacheflush модуля zfs - запретить сброс кеша (можно, если все подлежащие устройства имеют батарейку)
параметр zil_nocacheflush модуля zfs - запретить сброс ZIL (можно, если все подлежащие устройства имеют батарейку)
параметр zil_slog_limit (1048576) модуля zfs - писать в обход slog, если размер транзакции больше указанного числа или в slog занято вдвое больше места (не успеваем переносить)

Контроллер RAID и SSD класса DC превращают синхронную запись в асинхронную с помощью буферизации в память, защищённую батарейкой. ZIL не нужен.

Наборы данных: файловая система и том

В пуле может быть создано несколько именованных (длина имени не более 256 байт, глубина вложенности - 50) наборов данных (datasets) следующих типов:

файловая система zfs (строчные буквы), которая монтируется по умолчанию в "/имя-пула/имя-файловой-системы"; при создании пула автоматически создаётся корневая файловая система, которая монтируется по умолчанию в "/имя-пула"; можно поменять свойством mountpoint (наследуются дочерними файловыми системами; none - не монтировать; legacy - отключить механиз автоматического монтирования; можно ли назвать файловую систему none или legacy?); в /etc/fstab необходимо добавить "x-systemd.requires=zfs-import.target", чтобы обеспечить импорт пула до попытки монтирования; каталог точки монтирования создаётся и удаляется автоматически, имеющиеся каталоги с тем же именем проверяются на пустоту; несовместимость с POSIX при проверке свободного места
блочное устройство (ZVOL, том), может пользоваться всеми преимуществами пула - общее место, снимки, сжатие, дедупликация; можно положить туда ext4; не надо использовать том под swap в zfsonlinux - возможен дедлок (обещают, что исправлено; swap в файле в zfs - нет)
снимок (snapshot) - неизменяемая копия файловой системы или тома с именем имя-пула/имя-набора-данных@имя-снимка; до 2^64 снимков в пуле; снимки видимы в подкаталоге .zfs/snapshot (только при свойстве snapdir=visible, всегда доступны по команде cd) в корне файловой системы (автоматически монтируются при первом доступе и размонтируются через заданное - параметр zfs_expire_snapshot модуля zfs - время); в момент создания не занимают места (почти), занимаемое место увеличивается по мере расхождения с исходным набором данных; снимки образуют линейную цепочку во времени; при удалении файла, который остаётся хотя бы в одном снимке, место не освобождается, а даже немного увеличивается (новые версии каталога требуют своего места); можно откатить набор данных на момент создания снимка;
на базе снимков можно делать изменяемые клоны файловых систем или томов, удалить исходный снимок нельзя пока существует его клон (свойство origin), можно поменять ролями исходый снимок и его клон (zfs promote) после чего удалить ставшиий клоном исходный снимок;
закладка (bookmark, фактически номер транзакции на момент создания закладки) при создании привязывается к снимку, но сохраняется при его удалении; не занимает места; недоступна через файловую систему; может использоваться как отправная точка для команды "zfs send" с именем имя-файловой-системы#имя-закладки

Каждый набор данных имеет неизменяемый всё время существования уникальный между пулами GUID, сохраняется при пересылке. Также имеется уникальный внутри пула objsetid, не сохраняется при пересылке, может использоваться повторно после удаления набора данных.

Свойства набора данных наследуются от пула или родительского набора данных, задаются при создании (постоянно, ключ "-O" при создании пула, ключ "-o" при создании файловой системы) или монтировании (временно). Имеется возможность задавать свои (пользовательские) свойства, они не влияют на работу ZFS, всегда наследуются, имя - до 256 байт (обязательно наличие символа ":"), значение - до 8192 (ранее 1024) байт. Свойства требуют места в пуле и при его заполнении их невозможно изменить.

Задаваемые свойства набора данных (свойства наследуются; изменение свойства действует на файлы, создаваемые после изменения, разбиение на логические блоки и сжатие и подсчёт контрольной суммы происходит до дедупликации - не надо ничего менять при включённой дедупликации на полпути):

aclinherit=тип-наследования-ACL # тип наследования ACL при создании файлов и каталогов (не применим к POSIX ACL):
- discard: не наследовать
- noallow: наследовать только запреты
- restricted (по умолчанию): при наследовании удалять права "write_acl" и "write_owner"
- passthrough: наследовать всё, что можно
- passthrough-x: наследовать, за исключением того что owner@, group@, и everyone@ ACE наследуют права на выполнение только если режим создания файла также требует бит выполнения
aclmode=discard|groupmask|passthrough|restricted # как модифицируются существующие ACL при выполнении chmod(2) и унаследованные ACL при создании:
- discard (по умолчанию) - удалить режимы, которые не затрагиваются chmod(2)
- groupmask - понизить права так, чтобы они не превышали прав группы
- passthrough - не трогать режимы, которые не изменяются по chmod(2)
- restricted - chmod(2) должен возвращать ошибку, встретив непонятное ACL
acltype=off|noacl|nfsv4acl|posix|posixacl # off и noacl - запретить; nfsv4acl - POSIX ACL в FreeBSD - getfacl(1); posix или posixacl - POSIX ACL в Linux, тип POSIX ACL хранится как xattr, в этом случае рекомендуется установить xattr=sa; nfsv4acl и posixacl не пересекаются
atime=on|off # аналог atime и noatime параметров команды mount; по умолчанию включено (отключение сильно ускоряет обход каталогов); свойство, опция монтирования и действия VFS (были?) не согласованы
canmount=on|off|noauto # можно ли монтировать; по умолчанию - on (?); noauto - не монтируется при создании, импорте и команде "zfs mount -a"; off - совсем нельзя монтировать, в т.ч. по команде "zfs mount -a"; не наследуется
casesensitivity=sensitive|insensitive|mixed # отличать ли прописные и строчные буквы в именах файлов (в какой локали?); только при создании (явно, наследуется или умолчание); mixed только в Solaris (?)
checksum=on|off|fletcher2|fletcher4|sha256|noparity|sha512|skein|edonr/blake3 # выбор алгоритма контрольной суммы для данных; on (по умолчанию) - это fletcher4 или sha256 (при включённой дедупликации); off - отключает проверку чётности; noparity - отключает запись контрольных сумм и проверку чётности; изменение алгоритма действует только на вновь создаваемые данные;
compression=off|zle|gzip|gzip-уровень|on|lz4|lzjb|zstd|zstd-уровень|zstd-fast|zstd-fast-уровень # алгоритм сжатия; по умолчанию - off; on - это lz4 (может измениться), gzip - это gzip-6 (от 1 до 9), zstd - это zstd-3 (от 1 до 19), zstd-fast - это zstd-fast-1 (от -1 до -9, -10, ..., -100, -500, -1000); изменение алгоритма действует только на вновь создаваемые данные; блок из одних нулей записывается как дырка (hole), а не как сжатые нули; если блок после сжатия занимает более 7/8 размера несжатого, то записывается несжатый (нежелательно использовать логический блок размером менее 8 физических секторов - коэффициент сжатия будет ниже возможного); дедупликация выполняется после сжатия, поэтому не надо изменять алгоритм сжатия на ходу; якобы lz4 пропускает 10GB/sec несжимаемых данных (не проверял); не подходит для рабочих файлов, когда регулярно меняется 1 байт в середине файла;
context # контекст SELinux (none или пользователь:роль:тип:чувствительность) всех файлов файловой системы
copies=1|2|3 # количество копий данных и метаданных (дополнительные к этим копиям копии метаданных задются свойством redundant_metadata) без учёта зеркал/RAID; по возможности копии пишутся на различные vdev; изменение свойства действует только на вновь создаваемые данные; учитываются в квотировании, резервировании и used
dedup=off|on|verify|sha256[,verify]|sha512[,verify]|skein[,verify]|edonr,verify|blake3[,verify] # дедупликация; verify запускает побайтовую проверку при совпадении контрольных сумм блоков; on - это эквивалент "sha256" (может измениться); verify - это эквивалент "sha256,verify"; сравнение идёт по всему пулу, а не только по указанной файловой системе; применять с осторожностью (отключение не останавливает механизм полностью) - см. ниже
defcontext # контекст SELinux (none или пользователь:роль:тип:чувствительность) для непомеченных файлов
devices=on|off # на файловой системе можно размещать файлы устройств (аналог dev и nodev параметров команды mount)
dnodesize=legacy|auto|1k|2k|4k|8k|16k # большие dnode для хранения расширенных атрибутов (ACL, SELinux, символьные ссылки); требуется свойство пула large_dnode; по умолчанию - legacy
encryption=off|on|aes-128-ccm|aes-192-ccm|aes-256-ccm|aes-128-gcm|aes-192-gcm|aes-256-gcm # алгоритм, длину ключа и режим шифрования; требует keyformat, keylocateion и pbkdf2iters; on - это aes-256-gcm
exec=on|off # с файловой системы можно выполнять программы (аналог exec и noexec параметров команды mount)
filesystem_limit=none|число # ограничение на количество вложенных файловых систем; не действует на пользователей, которые имеют права изменения свойств
fscontext # контекст SELinux (none или пользователь:роль:тип:чувствительность) для монтируемой файловой системы
groupquota@имя-группы=none|байт # ограничение на использование места (groupused@имя-группы) членами группы (первичной?)
groupobjquota@имя-группы=none|число # ограничение на количество объектов (файл с расширенными атрибутами может требовать несколько объектов), созданных членами группы (первичной?)
jailed=off|on # отсутствует в Linux
keyformat=raw|hex|passphrase # формат ключа; генерация raw - "dd if=/dev/urandom of=имя-файла bs=32 count=1"; парольная фраза от 8 до 512 байт, преобразуется по алгоритму PBKDF2 согласно pbkdf2iters
keylocation=prompt|file:абсолютное-имя-файла|http://адрес|https://адрес # где брать ключ шифрования; по умолчанию, prompt - запрос при выолнении команды "zfs load-key"; учитываются переменные окружения SSL_CA_CERT_FILE, SSL_CA_CERT_PATH, SSL_CLIENT_CERT_FILE и SSL_CLIENT_KEY_FILE
logbias=latency|throughput # latency - использовать для синхронной записи ZIL устройство, throughput - писать синхронные запросы напрямую на конечное устройство
mountpoint=путь|legacy|none # имя точки монтирования файловой системы; по умолчанию для корневой файловой системы пула - "/имя-пула", для прочих - "/имя-пула/имя-файловой-системы"; legacy - использовать информацию из /etc/fstab (при использовании systemd необходимо указать опцию x-systemd.requires=zfs-import.target); none - не монтировать вовсе; при изменении производится перемонтирование и перераздача share для самой файловой системы и её детей, если не использован ключ "-u"; монтирование производится в момент создания и импорта пула (например, при загрузке), если свойство canmount=on; может наследоваться, точки монтирования могут образовывать иерархию
nbmand=on|off # для CIFS-клиентов монтировать в режитме "with non-blocking mandatory locks" (проблема с поддержкой); аналог nbmand и nonbmand параметров команды mount; при изменении требуется перемонтировать вручную
normalization=none|formC|formD|formKC|formKD # выбор алгоритма нормалиции Unicode при сравнении имён файлов; только при создании (явно, наследуется или умолчание); требует установить utf8only
overlay=on|off # разрешить (по умолчанию в Linux) монтирование на непустой каталог или каталог, где уже смонтирована другая файловая система
pbkdf2iters=число # количество итераций (350000) при генерации ключа из парольной фразы в соответствии с PBKDF2
primarycache=all|metadata|none # что можно кешировать в ARC
projectquota@идентификатор-проекта=none|размер # ограничение на использование места (projectused@имя-проекта) под проект
projectobjquota@идентификатор-проекта=none|число # ограничение на количество объектов (файл с расширенными атрибутами может требовать несколько объектов), созданных под проект
quota=none|байт # ограничение занятого места (used) файловой системой и её наследниками; для томов есть volsize
readonly=off|on # аналог параметров команды mount ro и rw
recordsize=байт # советуемый (максимальный?) размер блока (записи) файловой системы до сжатия, включая блоки метаданных; контрольные суммы и хеш дедупликации считаются для блоков (до или после сжатия?); по умолчанию - 128 КиБ; степени двойки от 512 байт (ashift?); максимальный размер определяется параметром zfs_max_recordsize модуля ядра zfs (1 МиБ по умолчанию; до 16 МиБ с фичей large_blocks); ZFS автоматически определяет подходящий размер блока для файла на основе его размера (а как zfs узнаёт будущий размер файла? при увеличении файла увеличивает размер следующего блока?): файлы размером менее recordsize записываются в 1 FSB (filesystem block) переменного размера (от 512 байт); файлы размером более recordsize записываются в несколько FSB размером recordsize (кроме последнего?); изменение свойства действует только на файлы, создаваемые (изменяемые) после, включая блоки изменяемых метаданных; все блоки одного файла имеют одинаковый размер (?!); маленькие файлы могут быть утрамбованы в 1 запись (даже записанные в разных группах транзакций?); если фрагментация свободного места достигла такой степени, что найти блок требуемого размера не удалось, то блок записывается кусками (gang block), на что требуется больше времени и места; при использовании сжатия используется блок подходящего размера (?); для работы с БД (запись в большие файлы маленькими кусочками) системе надо помочь (установить recordsize в размер кусочка); к использованию recordsize более 128 КиБ надо подходить с пониманием: агрегация ввода/вывода ограничивается 128 КиБ, более 1 МиБ устанавливать можно, но можно нарваться на неприятности с предварительным чтением, политиками выделения свободного места, объёмом транзакций, очередями (блокировки по умолчанию сняты в версии 2.2); "zfs send" без флага "-L" разбивает большие записи на куски не более 128 КиБ; при увеличении recordsize увеличивается пропускная способность, сжатие, размер "хвостов" и задержки, особенно при частичной записи в блок, уменьшается размер таблицы дедупликации;
redundant_metadata=all|most|some|none # в дополнение к заркалам/RAID и copies копий ZFS хранит дополнительную копию всех или большинства блоков метаданных; all - при недоступности 1 блока на устройстве хранения будет потеряна 1 запись данных (recordsize), most - при недоступности 1 блока на устройстве хранения будет потеряна не более 1000 записей данных; some - при недоступности 1 блока на устройстве хранения будет потерян 1 файл; none - ускоряет запись, будет потеряно всё
refquota=none|байт # ограничение занятого места (referenced) файловой системой без наследников и снимков
refreservation=none|байт|auto # резервирование места (referenced) под файловую систему без наследников и снимков; auto - только для томов (см. volsize)
relatime=on|off # действует при atime=on; время доступа к файлу изменяется, если текущее время доступа ранее времени создания/изменения или прошло более 24 часов после предыдущего доступа; аналог norelatime и relatime параметров команды mount; свойство, опция монтирования и действия VFS (были?) не согласованы
reservation=none|байт # резервирование места (used) файловой системой и её наследниками
rootcontext # контекст SELinux (none или пользователь:роль:тип:чувствительность) для корневого inode
secondarycache=all|metadata|none # что можно кешировать в L2ARC
setuid=on|off # уважать установку бита set-UID (аналог suid и nosuid параметров команды mount)
удалено shareiscsi=off|on|type=disk # экспортировать том как iSCSI таргет, on - это эквивалент "type=disk"
sharenfs=off|on|опции-exports # при изменении свойства файловая система переэкспортируется;
- off - использовать привычные методы (/etc/exports и exportfs)
- on - экспортировать файловую систему по NFS командой "zfs share" (предварительно запустить NFS сервер, настраивать свойство надо до выполнения exportfs, содержимое /etc/exports не влияет на реальные опции, вместо этого выполняется "/usr/sbin/exportfs -i -o sec=sys,rw,crossmnt,no_subtree_check,no_root_squash,mountpoint *:точка-монтирования" (no_root_squash?!), может потребоваться заглушка вида "localhost:/mnt"); как задать список хостов?
- опции-exports - экспортировать файловую систему по NFS командой "zfs share" (предварительно запустить NFS сервер, содержимое /etc/exports не влияет на реальные опции, опции берутся из свойства с помощью exportfs(8)); как задать список хостов?
sharesmb=off|on|опции # выглядит недоделанным (не пробовал);
- off - использовать привычные методы (zfs share)
- on - экспортировать файловую систему по SMB по net(8) (предварительно запустить SMB сервер, слушающий 127.0.0.1), имя ресурса конструируется автоматически из имена набора данных, ACL устанавливается как "Everyone:F" (полный доступ, но только для зарегистрированных пользователей)
- опции - ?
snapdev=hidden|visible # управление видимостью (/dev/zvol/имя-пула) снимков томов zvol
snapdir=hidden|visible # управление видимостью каталога .zfs, в котором находяся каталоги snapshot и shares; невидимость не мешает зайти в каталог командой "cd .zfs" (?)
snapshot_limit=none|число: ограничение на количество создаваемых снимков для файловой системы и её потомков; не действует на пользователей, которые имеют права изменения свойств
special_small_blocks=размер-блока # от 512B до 1M; логические блоки меньшего размера будут размещаться на специальном устройстве (vdev типа special); 0 (по умолчанию) - не размещать ничего на special
sync=standard|always|disabled # управление обработкой запросов синхронной записи (см. главу о ZIL); standard (по умолчанию) - совместимость с POSIX (fsync сбрасывет все кеши ОС и устройств); disabled - транзакции всё-таки соблюдаются; always - синхронизовать все данные
userquota@имя-пользователя=none|байт # ограничение на использование места (userused, "zfs userspace") указанным пользователем; отлавливает не сразу; не показывается по "zfs get all"
userobjquota@имя-пользователя=none|число # ограничение на количество объектов, созданных пользователем в этом наборе данных (файл с расширенными атрибутами может требовать несколько объектов); отлавливает не сразу; не показывается по "zfs get all"
utf8only=off|on # отвергать файлы с неправильными именами; счастье будет длиться до первого архива, сделанного zip или rar версии 1; только при создании (явно, наследуется или умолчание)
version=current|1|2|3|4|5 # установить версию формата файловой системы (не пула), текущая версия - 5
volblocksize=байт # размер блока тома (по умолчанию - 16 КиБ, было 8 КиБ) до сжатия (?); степени двойки от 512 байт (ashift?); максимальный размер определяется параметром zfs_max_recordsize модуля ядра zfs (1 МиБ по умолчанию; до 16 МиБ с фичей large_blocks); к использованию recordsize более 128 КиБ надо подходить с пониманием - агрегация ввода/вывода ограничивается 128 КиБ, более 1 МиБ устанавливать можно, но не нужно (можно нарваться на неприятности с предварительным чтением, политиками выделения свободного места, объёмом транзакций, очередями, BIO_MAX_PAGES?), "zfs send" без флага "-L" разбивает большие записи на куски 128 КиБ; можно установить только при создании
volsize=байт # задать логический (до сжатия и дедупликации) размер тома; д.б. кратен volblocksize; автоматически устанавливается refreservation=auto; можно изменять volsize (refreservation поддерживается в соответствии) и refreservation (получится том с дырками - thin provisioning, "zfs create -V -s ...")
volmode=full|default|geom|dev|none # full (по умолчанию) или geom - том представляется как обычное блочное устройство; dev - без разделов (?); none - невидим за пределами ZFS; default - устанавливается в соответствии со значением параметра zvol_volmode модуля ядра zfs
vscan=off|on # запускать антивирус при открытии файла (в Linux не используется)
xattr=on|off|sa # поддержка расширенных атрибутов файлов (например, POSIX ACL или SELinux); аналог xattr и noxattr параметров команды mount; off - не поддерживать; on - directory based (специальные файлы в каталогах?): нет ограничений, но неэффективно; sa - до 64K (setxattr/getxattr в Linux всё равно больше не поддерживают), быстро
zoned=off|on # набор данных управляем из неглобальной (?) зоны (пространства имён)

Информационные свойства набора данных (не наследуются, не устанавливаются):

available: доступное место для набора данных и его потомков с учётом размера пула, квот, резервирования; не учитывается сжатие, дедупликация, накладные расходы
clones: для снимков выводится список клонов через запятую
compressratio: для файловой системы или тома - коэффициент сжатия использованного места (used, с учётом потомков, для клонов не учитывается общее место с исходным снимком), для снимка compressratio равен refcompressratio
createtxg: номер группы транзакций, в которой был создан этот набор данных
creation: время создания
defer_destroy: "on" для снимков с отложенным уничтожением ("zfs destroy -d")
encryptionroot: откуда наследовать ключ шифрования
filesystem_count: при установленном выше по дереву filesystem_limit показывает количество файловых систем под этой точкой дерева
groupsused@имя-группы: место, использованное членами этой группы в этом наборе данных с учётом сжатия (как в "ls -s" или du (см. ниже), дедупликация?); непривилигерованный пользователь (нет groupused в "zfs allow") может узнать только про свою группу; не выводится по команде "zfs get all"
groupobjused@имя-группы: количество объектов, созданных членами этой группы в этом наборе данных (файл с расширенными атрибутами может требовать несколько объектов); непривилигерованный пользователь (нет groupobjused в "zfs allow") может узнать только про свою группу; не выводится по команде "zfs get all"
guid - несменяемый на протяжении всего времени существования GUID набора данных (сохраняется при пересылке)
keystatus: состояние ключа шифрования - none, available, unavailable
logicalreferenced: количество данных, доступное из этой файловой системы (различия со снимками недоступны и не учитываются), без учёта эффектов сжатия, дополнительных копий блоков, дедупликации (?), но с учётом метаданных
logicalused: used без учёта эффектов сжатия, дополнительных копий блоков, дедупликации (?), но с учётом метаданных
mounted: "yes" для смонтированной файловой системы
objsetid: уникальный идентификатор набора данных в пуле, не сохраняется при пересылке, может использоваться повторно после удаления набора данных
origin: для клонированного набора данных указывается имя исходного снимка
projectused@идентификатор-проекта: место, использованное под указанный проект (числовой идентификатор) в этом наборе данных (установить: "chattr -/+P", "zfs project -s", наследование; посмотреть: "lsattr -p", "zfs project"); непривилигерованный пользователь (нет projectused в "zfs allow") ничего не может узнать; не выводится по команде "zfs get all"
projectobjused@идентификатор-проекта: количество объектов, созданных в этом проекте в этом наборе данных (файл с расширенными атрибутами может требовать несколько объектов); непривилигерованный пользователь (нет projectobjused в "zfs allow") ничего не может узнать; не выводится по команде "zfs get all"
receive_resume_token: для полученного частично набора данных содержит указатель для продолжения пересылки (send -t)
redact_snaps: для закладки - GUID снимков, для которых закладка содержит список редактур; для снимков - GUID снимков, которые были отредактированы
refcompressratio: коэффициент сжатия для referenced, не used
referenced: количество данных, доступное из этой файловой системы (различия со снимками недоступны и не учитываются) с учётом эффектов сжатия, дополнительных копий блоков, метаданных, без учёта дедупликации (?)
snapshots_changed: для файловой системы время создания или удаления снимков; хранится только в пуле с фичей extensible_dataset
snapshot_count: при установленном выше по дереву snapshot_limit показывает количество снимков под этой точкой дерева
type: тип набора данных - filesystem или volume или snapshot или bookmark (клон - это файловая система)
used: место, занятое набором данных и потомками, без учёта совместного с родителями места (сколько освободится места, если уничтожить эту файловую систему рекурсивно); именно это число сравнивается с квотой и резервом; не учитывается резерв самого набора данных, но учитываются резервы нижестоящих; для снимка не учитываются разделяемые с родителем данные
usedbychildren: место, которое освободится после уничтожения всех потомков (клонов?)
usedbydataset: место, которое занимает сама файловая система
usedbyrefreservation: место, которое освободится после снятия резервирования
usedbysnapshots: место, которое освободится после уничтожения всех снимков (не равно сумме used всех снимков, т.к. данные разделяются)
userrefs: количество удержаний этого набора данных с помощью "zfs hold"
userobjused@имя-пользователя: количество объектов, созданных пользователем в этом наборе данных (файл с расширенными атрибутами может требовать несколько объектов); непривилигерованный пользователь (нет userobjused в "zfs allow") может узнать только про себя; не выводится по команде "zfs get all"
userused@имя-пользователя: место, использованное указанным пользователем (имя POSIX или uid) в этом наборе данных с учётом сжатия (как в "ls -s" или du (см. ниже), дедупликация?) ; непривилигерованный пользователь (нет userused в "zfs allow") может узнать только про себя; не выводится по команде "zfs get all" (см. "zfs userspace")
volblocksize: размер логического блока (от 512 до 128KiB) тома на момент создания
written: записано (в смысле referenced) после предыдущего снимка
written[@имя-файловой-системы]@имя-снимка: записано (в смысле referenced) после указанного снимка

Размер свободного использованного места в zfs ещё более сложен, чем в btrfs (см. выше описание параметров used*, referenced, logicalused, logicalreferenced). df и du показывают занятое место на диске после сжатия с учётом метаданных, но без учёта дедупликации (даёт ответ на вопрос - "сколько места освободится на диске после удаления, если все блоки были последними в таблице дедупликации?"). Чтобы узнать размер файлов до сжатия необходимо использовать "du --apparent-size". Команда "ls -l" показывает исходный размер файла, команда "ls -lsh" показывает размер файла на диске без учёта дедупликации. Полный размер файловой системы (total), выдаваемый командой df, изменяется по мере изменения коэффициента дедупликации (и сжатия?). Счётчики обновляются в момент завершения транзакции. При использовании vdev типа raidz2 каждый блок содержит как минимум 2 сектора (512 байт или с учётом ashift?) чётности, которые не попадают ни в какие отчёты.

Свойства, устанавливаемые на время монтирования: atime/noatime (atime), auto/noauto (canmount), dev/nodev (devices), exec/noexec (exec), ro/rw (readonly), relatime/norelatime (relatime), suid/nosuid (setuid), xattr/noxattr (xattr), mand/nomand (nbmand), context=, fscontext=, defcontext=, rootcontext=.

Набор данных может иметь пользовательские свойства, которые не влияют на поведение ZFS. Имя пользовательского свойства должно содержать ":" и быть короче 256 символов (байт?). Предполагается, что имя начинается с DNS имени в обратном порядке. Значение может быть произвольной строкой до 8192 байт.

Переменные окружения для утилиты zfs

ZFS_COLOR (сделать красиво)
ZFS_MODULE_TIMEOUT (10; секунд ожидания появления /dev/zfs; 0 - не ждать, меньше нуля - ждать вечно)
ZFS_MOUNT_HELPER
ZFS_SET_PIPE_MAX - отключён в Linux

zfs -?.

zfs version

zfs get {свойство[,...]|all} [имя-пула[/имя-набора-данных[@имя-снимка]]] ... # выдать список значений свойств; выводятся колонки: имя набора данных, имя свойства, значение свойства, источник; в колонке источник (SOURCE) могут быть выданы значения: default (значение взято по умолчанию), inherited (значение унаследовано от пула или родительского набора данных), local (значение свойства установлено явно этого набора данных), temporary (значение установлено временно при монтировании), received (send/receive) или '-' (none, вычисляемый); ключи:

-r (выводить рекурсивно для всех наследников по иерархии)
-d глубина (ограничить глубину рекурсии; 1 - сам набор и прямые потомки)
-H (для удобства скриптов - выводить без заголовков, разделять поля табуляцией)
-p (для удобства скриптов - выводить точные числа)
-t список-типов (выводить информацию только о наборах указанного типа: filesystem, snapshot, volume, bookmark, all)
-o список-колонок (выводить только указанные колонки; по умолчанию - name,property,value,source)
-s список-источников (ограничить вывод значений, определённых указанным источником; по умолчанию: local,default,inherited,received,temporary,none)

zfs set свойство=значение ... имя-пула[/имя-набора-данных[@имя-снимка]] ... # изменить свойство; ключи:

-u (изменить свойство монтирования, но не монтировать)

zfs inherit свойство имя-пула[/имя-набора-данных] ... # унаследовать свойство от родительского набора или пула или умолчания; ключи:

-r (рекурсивно для всех наследников по иерархии)
-S (вернуть к значению, полученному через send/receive, или к умолчанию)

zfs create имя-пула/имя-файловой-системы # создание файловой системы (монтируется автоматически), ключи:

-p (создать промежуточные наборы данных до корня пула)
-o имя-свойства=значение
-n (без реального создания)
-v (выводить подробности о созданной файловой системе
-P (выводить подробности в удобном для обработки формате)
-u (не монтировать)

zfs create -V размер имя-пула/имя-тома # создание тома (zvol), экспортируется в блочное устройство /dev/zvol/имя-пула/имя-тома, размер округляется до размера блока, указанный размер резервируется, ключи:

-p (создать промежуточные наборы данных до корня пула)
-o имя-свойства=значение
-s (создать разреженный - sparse , thin provision - том без резервирования)
-b размер-блока (-o volblocksize=размер-блока)
-n (без реального создания)
-v (выводить подробности о созданной файловой системе
-P (выводить подробности в удобном для обработки формате)

zfs destroy имя-пула/имя-набора-данных # удаление файловой системы или тома; файловая система размонтируется и разшаривается; не д.б. наследников и зависимых клонов (см. ключ "-r" и "-R"); осторожно: приводит к необходимости изменения миллионов (сотен миллионов) блоков метаданных, при использовании фичи async_destroy изменения идут в фоновом режиме и продолжаются с точки остановки после перезагрузки; ключи:

-r (удалить наследников)
-R (удалить наследников и зависимых клонов)
-f (размонтировать с ключом "-f", это что-то даёт в Linux?)
-n (без реального удаления, только статистику подсчитывает)
-v (вывести подробную информацию об удаляемых данных
-p (информация об удаляемых данных в формате для скриптов)

zfs destroy имя-пула[/имя-набора-данных]@имя-снимка[%имя-снимка][,...] # удаление снимков, можно указать список интервалов снимков; удаляется немедленно, если нет блокировок (hold) и зависимых клонов, иначе помечается для удаления после выполнения указанных условий (ни разу не удалялся немедленно, хотя не было ни блокировок, ни клонов). Снимок 84 GiB (самый большой) удалился быстро (lvmcache); интервал снимков (482 GiB) удалялся полторы минуты (в фоне, использовался lvmcache); на заполненной системе интервал снимков 854 ГБ удалялся более 4 часов (без lvmcache); при удалении может потребоваться место; ключи:

-d (отложенное удаление)
-r (удалить или пометить соответствующие снимки у наследников по иерархии)
-R (рекурсивно удалить все клоны, основанные на этом снимке, их наследников, снимки и клоны клонов)
-n (без реального выполнения)
-p (информация об удаляемых данных в формате для скриптов)
-v (вывести подробную информацию об удаляемых данных

Следить за фоновым освобождением места можно командой (freeing)

zpool list -p -o name,size,allocated,free,freeing,leaked,fragmentation,expandsize,capacity,dedupratio,health 30

zfs destroy имя-пула/имя-набора-данных#имя-закладки # удалить закладку

zfs snapshot имя-пула/имя-набора-данных@имя-снимка # создать снимок; при изменениях в файловой системе в снимке остаются старые значения, менять нельзя; ключи:

-o свойство=значение
-r (создать снимки у наследников по иерархии набора данных)

zfs rollback имя-пула/имя-набора-данных@имя-снимка # откатить состояние файловой системы или тома на время создания снимка; все сделанные после создания указанного снимка изменения удаляются; промежуточные снимки и закладки требуется удалить (ключ "-r" или "-R"); снимки подчинённых файловых систем не удаляются даже с ключами "-rR", каждую требуется откатить отдельно; ключи:

-r (с удалением промежуточных снимков и закладок)
-R (с удалением промежуточных снимков, клонов и закладок)
-f (размонтировать клоны перед удалением по ключу -R)

zfs clone имя-пула/имя-набора-данных@имя-снимка имя-пула/новое-имя-набора-данных # создать новую файловую систему или том на основе снимка; файловая система будет смонтирована по умолчанию в /имя-пула/новое-имя-файловой-системы с возможностью записи; снимок нельзя будет удалить без удаления клона; ключи:

-p (создать промежуточные наборы данных до корня пула)
-o свойство=значение

zfs promote клонированная-файловая-система # исходная файловая система, с которой делался снимок, с которого делался клон становится клоном (его можно потом удалить, но снимок - нет!), клон становится самостоятельной файловой системой, а снимок привязывается к ней (origin и clone меняются местами), все предыдущие снимки также привязываются к бывшему клону, последующие остаются привязанными к бывшей исходной файловой системе. Предварительно необходимо разрешить все конфликты имён. Пример из документации

zfs create pool/project/production
zfs snapshot pool/project/production@today
zfs clone pool/project/production@today pool/project/beta
zfs promote pool/project/beta
zfs rename pool/project/production pool/project/legacy
zfs rename pool/project/beta pool/project/production
zfs destroy pool/project/legacy

zfs bookmark имя-пула/имя-набора-данных{@имя-снимка|#имя-закладки} имя-пула#имя-новой-закладки # создать закладку.

zfs rename имя-пула/имя-набора-данных[@имя-снимка] новое-имя; переименовать набор данных или снимок; при необходимости производится перемонтирование; ключи:

-f (при необходимости размонтировать с ключом -f, не работает в Linux?)
-p (создать промежуточные наборы данных до корня пула)
-r (переименовать снимки рекурсивно у всех наследников по иерархии)
-u (не монтировать заново)

zfs list [имя-набора-данных|имя-снимка] ... # выдать список наборов данных и их свойств; ключи:

-r (выводить рекурсивно для всех наследников по иерархии)
-d глубина (ограничить глубину рекурсии)
-H (для удобства скриптов - выводить без заголовков, разделять поля табуляцией)
-p (для удобства скриптов - выводить точные числа)
-t список-типов (выводить информацию только о наборах указанного типа: filesystem, snapshot, volume, bookmark, all)
-o список-свойств (выводить значения указанных свойств; name - имя набора; по умолчанию - name,used,available,referenced,mountpoint)
-s свойство (ключ сортировки по возрастанию; можно указать несколько раз)
-S свойство (ключ сортировки по убыванию; можно указать несколько раз)

zfs mount # вывести список смонтированных файловых систем; временно смонтированные файловые системы для снимков не показывает.

zfs mount {имя-пула/имя-файловой-системы|-a} # смонтировать файловую систему или все; автоматически выполняется при импорте пула, если разрешено в mountpoint; ключи:

-a (монтировать все найденные)
-v (сообщить подробности)
-O (монтировать поверх непустого каталога)
-o список-опций-монтирования (временно устанавливаются соответствующие свойства)
-f (применить силу)
-l (вызвать "zfs load-key")

zfs unmount|umount {-a | имя-пула/имя-файловой-системы | точка-монтирования} # размонтирование файловой системы; ключи:

-a (размонтировать все найденные)
-f (применить силу, не действует в Linux)
-u (выгрузить ключи шифрования)

zfs share {-a | имя-пула/имя-файловой-системы} # выдаёт (экспортирует, расшаривает) файловую систему наружу для NFS, SMB или iSCSI (удалено) для файловых систем и томов с установленными свойствами sharenfs, sharesmb или shareiscsi (удалено); выполняется автоматически при импорте пула; шары создаются в подкаталоге .zfs/shares/ корня файловой системы (?); снимки экспортируются вместе с файловой системой (при первом обращении к .zfs/snapshot); можно экспортировать непосредственно .zfs/snapshot.

zfs unshare {-a | имя-пула/имя-файловой-системы | точка-монтирования} # закрывает файловую систему для экспорта; выполняется автоматически при завершении работы сервера.

zfs send имя-пула/имя-набора-данных@имя-снимка # вывести на stdout поток, представляющий содержимое снимка; этот поток можно сохранить или сразу использовать локально или удалённо (например, с помощью ssh, nc, mbuffer) командой "zfs receive"; формат потока стандартизован и зафиксирован; send делает hold на снимки; посмотреть заголовки и статистику можно с помощью утилиты zstreamdump; на передающем конце данные разжимаются (если не указано -c), на приёмном сжимаются обратно; ключи:

-i имя-исходного-снимка (сгенерировать поток изменений от исходного снимка до целевого)
-I имя-исходного-снимка (сгенерировать цепочку потоков изменений от исходного снимка до целевого со всеми остановками)
-L|--large-block (поток с использованием больших блоков - large_blocks)
-P|--parsable (подробный отчёт о передаче на stderr в формате для обработки)
-R|--replicate [-s|--skip-missing] (сгенерировать с сохранением структуры и значений свойств пакет потоков, включающий указанную файловую систему и всех её детей, клонов, снимков; автоматически включает "-p")
-X|--exclude имя-пула/имя-набора-данных,... (не включать указанные наборы в поток; требует -R)
-c|--compressed (сжатые на диске или в памяти блоки передаются в сжатом виде)
-e|--embed (поток с использованием встроенных данных - embedded_data)
-w|--raw (зашифрованные данные передаются как есть)
-p|--props (передавать свойства набора данных)
-b|--backup (передавать только те свойства набора данных, которые были ранее получены по receive)
-V (ежесекундный отчёт о передаче отображается в имени процесса)
-v|--verbose (подробный отчёт о передаче на stderr; ежесекундно; отчёт генерируется по сигналу SIGINFO (?!) и - с завершением - SIGUSR1)
-n|--dryrun (без реального создания потока, выводится только статистика на stdout вместо stderr)
-h|--holds (пересылать блокировки, сделанные командой "zfs hold")
-D|--dedup (удалено; дедупликация для передаваеммых блоков вне зависимости от свойств передатчика (рекомендуется использование sha256) и приёмника - на ходу создаётся временная DDT);

Пример копирования цепочки снимков (основанные на снимках клоны не копируются):

принимающий сервер (пул bigpool создан, а файловая система нет)
mbuffer -I 7777 -m 1G -s 1048576| zfs receive -vd -F -s -o свойство ... -o mountpoint=/time_machine bigpool

передающий сервер (имеются снимки и клоны с 20150101 по 20240131):
zfs send -R -p -Lec -V bigpool/time_machine@20240131 | mbuffer -O принимающий-сервер:7777 -m 1G -s 1048576

создаются поштучно
receiving full stream of bigpool/time_machine@20150101 into bigpool/time_machine@20150101
in @ 28.0 MiB/s, out @ 28.0 MiB/s, 11.2 TiB total, buffer   0% fullreceived 11.2T stream in 113336.17 seconds (104M/sec)
receiving incremental stream of bigpool/time_machine@20150102 into bigpool/time_machine@20150102
in @ 53.9 MiB/s, out @ 49.9 MiB/s, 11.3 TiB total, buffer   0% fullreceived 29.1G stream in 145.54 seconds (205M/sec)
...

клоны не дошли, пришлось воссоздавать
for DATE in `ls /time_machine/.zfs/snapshot/`; do zfs clone -o mountpoint=/clones/$DATE -p bigpool/time_machine@$DATE bigpool/clones/$DATE; done

следующая пачка (в промежутке на приёмном конце ничего не делать):

mbuffer -I 7777 -m 1G -s 1048576| zfs receive -vd -F -o ... -o mountpoint=/time_machine bigpool

zfs send -R -Lec -I bigpool/time_machine@20240131 bigpool/time_machine@20240229 | mbuffer -O принимающий-сервер:7777 -m 1G -s 1048576

zfs send имя-пула/имя-набора-данных|имя-пула # вывести на stdout поток, представляющий содержимое файловой системы; снимки и клоны не передаются; файловая система должна быть размонтирована или пул импортирован только на чтение; на приёмном конце создаётся искусственный снимок с именем "--head--" (не удаляется при завершении); ключи:

-i {имя-снимка | имя-закладки} (сгенерировать поток изменений от исходного снимка или закладки; снимок должен быть на принимающем конце)
... кроме -I и -R и -p и -h и -b

Пример копирования файловой системы целиком (без снимков и клонов)

принимающий сервер (пул bigpool создан, файловая система создана)
mbuffer -I 7777 -m 1G -s 1048576| zfs receive -ve -F -s bigpool

передающий сервер (клоны с 20150101 по 20240131, пришлось всё размонтировать):
zfs send --Lec -V bigpool/time_machine| mbuffer -O принимающий-сервер:7777 -m 1G -s 1048576
summary: 36.8 TiByte in 52h 48min 30.1sec - average of  203 MiB/s

receiving full stream of bigpool/time_machine@--head-- into bigpool/time_machine@--head--
...

zfs send -t ключ-возобновления # возобновить прерванную ранее передачу; ключ брать в свойстве receive_resume_token на принимающем конце (см. "zfs receive -s"). Можно использовать только ключи -PVenv.

zfs send [-i снимок|закладка] -S набор-данных # выдать поток, который мы сами получили не полностью.

zfs send --redact имя-закладки имя-пула/имя-набора-данных@имя-снимка # вывести на stdout поток, представляющий содержимое снимка, отредактированный командами из закладки (записываются командой "zfs redact"); мутная вещь.

zfs redact снимок закладка редактирующий-снимок # создать закладку для последующего редактирования потока. Ещё более мутная вещь.

zfs receive имя-пула/имя-набора-данных[@имя-снимка] # принять поток от "zfs send" на stdin и создать из него снимок; для инкрементального потока файловая система должна существовать, самый свежий снимок на приёмном конце должен соответствовать опроному снимку на передающем; если имя-снимка указано в команде, то берётся из команды, иначе - из потока; при приёме полного потока создаются файловая система и снимок; при приёме пакета потоков (-R) на приёмном конце удаляются снимки, отсутствующие у источника ("zfs destroy -d"); при приёме тома ссылка на устройство пересоздаётся (не получится его использовать во время передачи); если не использован ключ "-s", то при прерывании передачи файловая система откатывается к моменту начала; после передачи первого снимка монтирования не произошло, попытался вручную - файловая система пуста, передача прервалась ("dataset is busy"), не трогайте приёмник до завершения всей передачи; пример send/receive с использованием mbuffer ключи:

-F (откатить принимающую файловую систему до последнего снимка; при приёме инкрементального пакета потоков ("-R -i" или "-R -I") удалить все файловые системы и снимки, которых нет на передающем конце; принимающая файловая система размонтируется, при ручном монтировании она пуста, в т.ч. .zfs/snapshot )
-d (удалить из потока только имя пула, использовать указанное в команде имя пула, оставить имя файловой системы; при пересылке корневой файловой системы ругается на существующую принимающую и требует "-F")
-e (удалить из потока имя пула и начальную часть пути в имени файловой системы, использовать указанное в команде имя пула; при пересылке корневой файловой системы она "проваливается" внутрь принимающей файловой системы)
-h (не принимать блокировки - "zfs hold")
-v (подробный отчёт о потоке и требуемом времени)
-n (без реального выполнения, только отчёт)
-o origin=имя-снимка (принять поток как клон указанного снимка; для инкрементального потока делаются проверки)
-o свойство=значения (установить свойство до приёма потока; compression устанавливается, но не используется при приёме потоков "zfs send -c")
-x свойство (не принимать значение указанного свойства из потока)
-u (не монтировать)
-s (при прерывании передачи (включая ручное) сохранит промежуточное состояние, ключ возобновления в свойстве receive_resume_token)
-A (удалить промежуточное состояние)
-c (использовать входной поток в попытке починить набор данных)

Что происходит при передаче снимка на самом деле? Подсмотрено из "zpool events -v" и "zpool history -il":

"послойная" передача

receive bigpool/time_machine (387)
set bigpool/time_machine (387) $hasrecvd=
set bigpool/time_machine (387) aclinherit=3
...
finish receiving bigpool/time_machine (387) snap=20150101
snapshot bigpool/time_machine@20150101 (44623)
set bigpool/time_machine (387) sharesmb=off
set bigpool/time_machine (387) sharesmb=off
receive bigpool/time_machine/%recv (44746)
set bigpool/time_machine (387) aclinherit=3
...
finish receiving bigpool/time_machine/%recv (44746) snap=20150102
clone swap bigpool/time_machine/%recv (44746) parent=time_machine
snapshot bigpool/time_machine@20150102 (45407)
destroy bigpool/time_machine/%recv (44746) (bptree, mintxg=44320)
set bigpool/time_machine (387) sharesmb=off
receive bigpool/time_machine/%recv (43639)
set bigpool/time_machine (387) aclinherit=3
...
finish receiving bigpool/time_machine/%recv (2255790) snap=20240131
clone swap bigpool/time_machine/%recv (2255790) parent=time_machine
snapshot bigpool/time_machine@20240131 (2258108)
destroy bigpool/time_machine/%recv (2255790) (bptree, mintxg=1666790)
set bigpool/time_machine (387) sharesmb=off
zfs receive -vd -F -o ... bigpool

создание клонов

clone bigpool/clones/20150101 (2255968) origin=bigpool/time_machine@20150101 (44623)
set bigpool/clones/20150101 (2255968) mountpoint=/clones/20150101
zfs clone -o mountpoint=/clones/20150101 -p bigpool/time_machine@20150101 bigpool/clones/20150101
...

целиковая передача

receive bigpool/time_machine/%recv (390)
finish receiving bigpool/time_machine/%recv (390) snap=--head--
clone swap bigpool/time_machine/%recv (390) parent=time_machine
snapshot bigpool/time_machine@--head-- (115448)
destroy bigpool/time_machine/%recv (390) (bptree, mintxg=1)
ioctl receive
    input:
        snapname: 'bigpool/time_machine@--head--'
        begin_record[0]: 0
        begin_record[1]: 0
...
        begin_record[311]: 0
        input_fd: 0
        force
        resumable
    output:
        read_bytes: 40412783039912
        error_flags: 0
        errors:
zfs receive -ve -F -s bigpool

zfs diff имя-пула/имя-файловой-системы@имя-снимка имя-пула/имя-файловой-системы[@имя-снимка] # вывести список файлов, изменившихся между снимками ("-" - удалён, "+" - добавлен, "M" - изменён, "R" - переименован); ключи:

-F (вывести тип файла, как в "ls -F")
-H (для удобства скриптов - выводить без заголовков, разделять поля табуляцией)
-t (вывести время изменения)
-h (не преобразовывать не ASCII символы в \0...)

zfs userspace имя-пула/имя-файловой-системы[@имя-снимка] # показать квоты и занимаемое место (см. свойства userused@имя-пользователя и userquota@имя-пользователя; ключи:

-H (для удобства скриптов - выводить без заголовков, разделять поля табуляцией)
-i (транслировать SID в uid)
-n (выводить uid вместо имён пользователей)
-p (для удобства скриптов - выводить точные числа)
-o список-полей (выводить значения указанных полей; по умолчанию - type,name,used,quota)
-s поле (ключ сортировки по возрастанию; можно указать несколько раз; по умолчанию: " -s type -s name")
-S поле (ключ сортировки по убыванию; можно указать несколько раз)
-t список-типов (выводить информацию только о пользователях указанного типа: all, posixuser, smbuser, posixgroup, smbgroup; по умолчанию: posixuser,smbuser)

zfs groupspace имя-пула/имя-файловой-системы[@имя-снимка] # показать квоты и занимаемое место (см. свойства groupused@имя-группы и groupquota@имя-группы; ключи:

-H (для удобства скриптов - выводить без заголовков, разделять поля табуляцией)
-i (транслировать SID в gid)
-n (выводить gid вместо имён групп пользователей)
-p (для удобства скриптов - выводить точные числа)
-o список-полей (выводить значения указанных полей; по умолчанию - type,name,used,quota)
-s поле (ключ сортировки по возрастанию; можно указать несколько раз; по умолчанию: " -s type -s name")
-S поле (ключ сортировки по убыванию; можно указать несколько раз)
-t список-типов (выводить информацию только о пользователях указанного типа: all, posixuser, smbuser, posixgroup, smbgroup; по умолчанию: posixgroup, smbgroup)

zfs projectspace имя-пула/имя-файловой-системы[@имя-снимка] # показать квоты и занимаемое место (см. свойства projectused@идентификатор-проекта и projectquota@идентификатор-проекта; ключи:

-H (для удобства скриптов - выводить без заголовков, разделять поля табуляцией)
-p (для удобства скриптов - выводить точные числа)
-o список-полей (выводить значения указанных полей; по умолчанию - type,name,used,quota)
-s поле (ключ сортировки по возрастанию; можно указать несколько раз; по умолчанию: " -s type -s name")
-S поле (ключ сортировки по убыванию; можно указать несколько раз)

zfs allow и unallow позволяют передать непривилегированному пользователю (не uid 0) часть прав по администрированию файловой системы или тома. Без параметров выводит текущие права.

zfs hold [-r] метка имя-пула/имя-файловой-системы@имя-снимка ... # именованная блокировка не позволяет удалить снимок, каждый снимок имеет своё пространство имён. Этот механизм используется в send/receive. Клоны используют другой механизм.

zfs holds [-rHp] имя-пула/имя-файловой-системы@имя-снимка ... # вывести список блокировок.

zfs release [-r] метка имя-пула/имя-файловой-системы@имя-снимка ... # снять поименованную блокировку.

zfs upgrade [-v] # показать список файловых систем (не пулов!), которые можно улучшить. В настоящее время нет ничего кроме версии 5.

zfs upgrade {-a | имя-пула/имя-файловой-системы} # обновить версию файловой системы (не пула!); ключи:

-r (обновить рекурсивно для всех наследников по иерархии)
-V версия (ограничиться обновлением до указанной версии)

zfs jail и unjail # только для FreeBSD.

zfs load-key и unload-key и change-key # манипуляции с ключами шифрования.

zfs zone файл-пространства-имён имя-пула/имя-файловой-системы # подключить файловую систему в пространство имён пользователя; требуется свойство zoned; определяется файлом /proc/номер-процесса/ns/user; в пользовательском пространстве имён требуется доступ к /dev/zfs; подчинённые файловые системы нельзя подключить к другому пользователю; нельзя поменять квоту.

zfs unzone файл-пространства-имён имя-пула/имя-файловой-системы # отключить файловую систему из пространства имён пользователя.

zfs wait [-t тип,...] # дождаться завершения указанной фоновой активности; пока только deleteq (дожидается завершения процессов с указателями на удалённые файлы).

zfs project # управление привязкой файлов к проектам.

zfs program имя-пула имя-скрипта-LUA [параметры] # запуск скрипта на LUA 5.2; выполнение атомарное; ключи:

-j (вывод в формате JSON)
-n (только чтение)
-t максимальное-число-инструкций (10 миллионов)
-m максимальное-число-байт (10 MiB)

Для InnoDB необходимо установить параметр zfs_nocacheflush модуля zfs и создать отдельную файловую систему со свойствами recordsize=16K, primarycache=metadata, logbias=throughput, atime=off, sync=disabled.

Для MyISAM необходимо установить параметр zfs_nocacheflush модуля zfs и создать отдельную файловую систему со свойствами recordsize=8K, primarycache=metadata, logbias=throughput, atime=off, sync=disabled.

А лучше не использовать CoW файловую систему для работы с СУБД, под swap, блочные устройства виртуальных машин и т.п..

Кроме предварительного чтения на уровне устройств ZFS предлагает механизм предварительного чтения на уровне файлов - zfetch. Этот механизм отслеживает шаблоны чтения файлов и при обнаружении потока последовательного чтения (вперёд или назад, сплошного или интервального, 8 потоков на файл - на dnode, а не на file handler) заранее загружает данные в кеш ARC. Статистику можно получить в /proc/spl/kstat/zfs/zfetchstats или с помощью утилиты arc_summary.py. Управлять можно с помощью параметров zfs_prefetch_disable, zfetch_array_rd_sz, zfetch_block_cap, zfs_read_chunk_size модуля zfs.

Для обработки ситуации с удалением использумых в настоящий момент файлов (pending delete) применяется такой внутренний объект ZFS как очередь удаления, которая хранит ссылки на все временно не удалённые объекты (отдельная очередь для каждой файловой системы и снимка, таким образом место не освободится пока не будет удалён последний снимок). Эта очередь передаётся в операциях send/receive и в момент монтирования по завершению передачи файлы удаляются, порождая расхождение между текущим состоянием файловой системы и только что переданных снимком (но место не осовободится!), при следующей инкрементальной передаче придётся использовать ключ "-F" для откатки этого изменения. Поиск объектов очереди удаления (не нашёл):

zdb -dddd имя-файловой-системы 1

найти в выводе "DELETE_QUEUE = номер-объекта"

zdb -dddd имя-файловой-системы номер-объекта
...
ZAP entries: количество объектов в очереди на удаление

Тестирование производительности сжатия

Тестирование производительности сжатия проводилось в основном на сервере с 2 Intel Xeon CPU E5-2637 v2 @ 3.50GHz, по 4 ядра.

gzip-7 на скорости 200 МБ/сек потребляет все 8 ядер на 3.5GHz
gzip-8 на скорости 1Gbps потребляет все 12 ядер на 3.5GHz
rsync из share4h с исключением .trn и пр. (6314 GB, дедупликация 1.10x) - алгоритм, коэффициент, время
- gzip-1: 2.71 за 48600 секунд
- gzip-6: 2.85 за 49020 секунд
- zstd-1: 2.83 за 40080 секунд
- zstd-5: 2.94 за 44160 секунд
- zstd-9: 3.02 за 51660 секунд (122 МБ/сек, 10 ТБ/день
- zstd-14: 3.03 за 97620 секунд (уже медленно и без пользы)
- zstd-19: 3.19 за 642802 секунд (9.8 МБ/сек)

send -c/receive по сети (special под малые блоки 4096 (на 320 ТБ дисков потребуется 8 ТБ SSD) или 0, dnodesize - auto или legacy; 2 CPU E5-2637 v2 по 4 ядра @ 3.50GHz; zfs-2.0.0-rc1-18-g45fddb6-CentOS-7-x86_64; базовый снимок - 13TB сжатых gzip-6 (дупликация - 1.17), все снимки - 23 TB сжатых gzip-6 (дупликация - 1.40);

от zstd-fast и до zstd-4 - процессор занят менее 60%; по ночам мешает rsync на исходящем конце; разогнать подстраивая параметры модуля не удалось)

ncat -l 7777 | dd bs=400000k | zfs receive -vd -F \
-o atime=off -o relatime=off -o compression=zstd-4 -o dnodesize=auto -o devices=off -o overlay=off \
-o primarycache=metadata -o secondarycache=metadata -o special_small_blocks=4096 time_machine
receiving full stream of time_machine@20140901 into time_machine@20140901

time zfs send  -Lev -c -R time_machine@20140901 | ncat grid0001 7777

сразу после начала копирования второго снимка
kernel:VERIFY3(rrd->bytes_read >= rwa->bytes_read) failed (1 >= 18446744073709551137)
kernel:PANIC at dmu_recv.c:2684:receive_process_record()

метод обхода: разбиваем пересылку на 2 части
база (11.1 TiByte):
time zfs send  -Lev -c -R time_machine@20140901
zfs receive -vd -F -o ... time_machine

изменения (12.0 TiByte):
time zfs send  -Lev -c -I @20140901 time_machine@20150325
zfs receive -vd time_machine

"ncat -l 7777 | dd bs=400000k" заменяем на "mbuffer -I 7777 -m 1G -s 1048576"
"ncat grid0001 7777" заменяем на "mbuffer -O grid0001:7777 -m 1G -s 1048576"

zstd-3 (small_blocks=0, dnodesize=legacy): база - 213 MiB/s, DEDUP 1.28, RATIO 2.76x; изменения - 177 MiB/s; суммарно: DEDUP 1.40, RATIO 3.14

первая часть:
NAME          LUSED   USED  COMPRESS        RATIO  DEDUP
time_machine  30.5T  11.2T  zstd-3          2.76x  on
NAME                                           SIZE  ALLOC   FREE  CKPOINT  EXPANDSZ   FRAG    CAP  DEDUP    HEALTH  ALTROOT
time_machine                                  110801566302208  9576284876800  101225281425408        -         -      0      8 1.28    ONLINE  -
  dm-name-tm-data                             110002702385152  9506872832000  100495829553152        -         -      0      8   -  ONLINE
special                                           -      -      -        -         -      -      -      -  -
  ata-INTEL_SSDSC2BB800G4_BTWL4135013B800RGN  798863917056  69412044800  729451872256        -         -     16      8      - ONLINE 

полностью по 20150325:
NAME          LUSED   USED  COMPRESS        RATIO  DEDUP
time_machine  71.3T  23.1T  zstd-3          3.14x  on
NAME                                           SIZE  ALLOC   FREE  CKPOINT  EXPANDSZ   FRAG    CAP  DEDUP    HEALTH  ALTROOT
time_machine                                  110801566302208  18097695977472  92703870324736        -         -      0     16 1.40    ONLINE  -
  dm-name-tm-data                             110002702385152  17783079010304  92219623374848        -         -      0     16    -  ONLINE
special                                           -      -      -        -         -      -      -      -  -
  ata-INTEL_SSDSC2BB800G4_BTWL4135013B800RGN  798863917056  314616967168  484246949888        -         -     40     39      - ONLINE 

или

NAME          LUSED   USED  COMPRESS        RATIO  DEDUP
time_machine  71.3T  23.1T  zstd-3          3.14x  on
NAME                                           SIZE  ALLOC   FREE  CKPOINT  EXPANDSZ   FRAG    CAP  DEDUP    HEALTH  ALTROOT
time_machine                                   101T  16.5T  84.3T        -         -     0%    16%  1.40x    ONLINE  -
  dm-name-tm-data                              100T  16.2T  83.9T        -         -     0%  16.2%      -  ONLINE
special                                           -      -      -        -         -      -      -      -  -
  ata-INTEL_SSDSC2BB800G4_BTWL4135013B800RGN   744G   293G   451G        -         -    40%  39.4%      -  ONLINE

zstd-4 (small_blocks=4096, dnodesize=auto) - 179 MB/s сжатых недедуплицированных, сжатие 3.13

полностью по 20150325:
NAME           USED  COMPRESS        RATIO  DEDUP
time_machine  23.0T  zstd-4          3.13x  on
NAME                SIZE  ALLOC   FREE  CKPOINT  EXPANDSZ   FRAG    CAP  DEDUP    HEALTH  ALTROOT
time_machine        101T  16.4T  84.3T        -         -     0%    16%  1.40x    ONLINE  -
  dm-name-tm-data   100T  16.1T  84.0T        -         -     0%  16.0%      -  ONLINE
special                -      -      -        -         -      -      -      -  -
  sde               744G   388G   356G        -         -    46%  52.1%      -  ONLINE

zstd-6 и -7 - процессор нагружен почти на 80%; база - 181M/sec

база:
NAME           USED  COMPRESS        RATIO  DEDUP
time_machine  11.2T  zstd-6          2.76x  on
NAME                SIZE  ALLOC   FREE  CKPOINT  EXPANDSZ   FRAG    CAP  DEDUP    HEALTH  ALTROOT
time_machine        101T  8.70T  92.1T        -         -     0%     8%  1.28x    ONLINE  -
  dm-name-tm-data   100T  8.64T  91.4T        -         -     0%  8.63%      -  ONLINE
special                -      -      -        -         -      -      -      -  -
  sde               744G  65.0G   679G        -         -    15%  8.73%      -  ONLINE

zstd-8 - процессор на полке 80%; база - 168 MB/s

база:
NAME          LUSED   USED  COMPRESS        RATIO  DEDUP
time_machine  30.5T  11.2T  zstd-8          2.76x  on
NAME                                           SIZE  ALLOC   FREE  CKPOINT  EXPANDSZ   FRAG    CAP  DEDUP    HEALTH  ALTROOT
time_machine                                   101T  8.70T  92.1T        -         -     0%     8%  1.28x    ONLINE  -
  dm-name-tm-data                              100T  8.64T  91.4T        -         -     0%  8.63%      -  ONLINE  
special                                           -      -      -        -         -      -      -      -  -
  ata-INTEL_SSDSC2BB800G4_BTWL4135013B800RGN   744G  65.0G   679G        -         -    15%  8.73%      -  ONLINE

zstd-12 (noop в /sys/block/sdg/queue/scheduler) - процессор на полке 80% на основном теле, но свободен при передаче изменений; база - 131M/sec, изменения - 122 MiB/s

база:
NAME          LUSED   USED  COMPRESS        RATIO  DEDUP
time_machine  30.5T  11.2T  zstd-12         2.76x  on
NAME                                           SIZE  ALLOC   FREE  CKPOINT  EXPANDSZ   FRAG    CAP  DEDUP    HEALTH  ALTROOT
time_machine                                   101T  8.70T  92.1T        -         -     0%     8%  1.28x    ONLINE  -
  dm-name-tm-data                              100T  8.63T  91.4T        -         -     0%  8.63%      -  ONLINE  
special                                           -      -      -        -         -      -      -      -  -
  ata-INTEL_SSDSC2BB800G4_BTWL4135013B800RGN   744G  64.8G   679G        -         -    13%  8.70%      -  ONLINE

суммарно по 20150325:
NAME          LUSED   USED  COMPRESS        RATIO  DEDUP
time_machine  71.3T  23.0T  zstd-12         3.14x  on
NAME                                           SIZE  ALLOC   FREE  CKPOINT  EXPANDSZ   FRAG    CAP  DEDUP    HEALTH  ALTROOT
time_machine                                   101T  16.4T  84.3T        -         -     0%    16%  1.40x    ONLINE  -
  dm-name-tm-data                              100T  16.2T  83.9T        -         -     0%  16.1%      -  ONLINE
special                                           -      -      -        -         -      -      -      -  -
  ata-INTEL_SSDSC2BB800G4_BTWL4135013B800RGN   744G   293G   451G        -         -    38%  39.4%      -  ONLINE

..................................................................................................................

rsync с фильтрацией ненужного, recsize=16MB (блоки размером более 128KB занимают 95% места)

база:
NAME                  LUSED   USED  COMPRESS        RATIO  DEDUP
bigpool/time_machine  28.3T  9.62T  zstd-12         2.97x  sha256
NAME                                       SIZE  ALLOC   FREE  CKPOINT  EXPANDSZ   FRAG    CAP  DEDUP    HEALTH  ALTROOT
bigpool                                   10.1T  7.63T  2.51T        -         -     3%    75%  1.26x    ONLINE  -
  scsi-3600605b008ca05c026d2c13b2b9980bc  3.27T  2.53T   752G        -         -     2%  77.5%      -  ONLINE
  scsi-3600605b008ca0520270f5bb8e7efaf61  4.08T  2.69T  1.39T        -         -     1%  65.9%      -  ONLINE
  scsi-3600605b008ca050026501b76a5a7dd68  2.45T  2.36T  93.2G        -         -     9%  96.3%      -  ONLINE
special                                       -      -      -        -         -      -      -      -  -
  nvme0n1                                  348G  51.2G   297G        -         -    26%  14.7%      -  ONLINE

Block Size Histogram

  block   psize                lsize                asize
   size   Count   Size   Cum.  Count   Size   Cum.  Count   Size   Cum.
    512:  19.9M  9.96G  9.96G  19.9M  9.96G  9.96G      0      0      0
     1K:  9.24M  11.0G  21.0G  9.24M  11.0G  21.0G      0      0      0
     2K:  7.60M  20.0G  40.9G  7.60M  20.0G  40.9G      0      0      0
     4K:  17.0M  68.7G   110G  7.36M  38.4G  79.3G  47.1M   188G   188G
     8K:  4.48M  41.4G   151G  4.93M  55.0G   134G  10.9M  95.3G   284G
    16K:  1.74M  35.7G   187G  6.41M   125G   259G  1.92M  38.4G   322G
    32K:   877K  36.9G   224G  2.44M   107G   365G   895K  37.3G   359G
    64K:   704K  61.2G   285G  1.63M   141G   506G   715K  61.7G   421G
   128K:   471K  82.5G   367G  1.12M   188G   694G   480K  83.6G   505G
   256K:   364K   130G   498G   635K   235G   929G   365K   131G   635G
   512K:   412K   302G   800G   471K   320G  1.22T   413K   302G   938G
     1M:   439K   636G  1.40T   299K   420G  1.63T   438K   635G  1.54T
     2M:   377K   991G  2.37T   273K   780G  2.39T   378K   992G  2.50T
     4M:   158K   872G  3.22T   176K  1007G  3.37T   159K   872G  3.36T
     8M:   156K  1.72T  4.94T   133K  1.43T  4.81T   156K  1.72T  5.08T
    16M:   313K  4.89T  9.83T  1.56M  25.0T  29.8T   313K  4.89T  9.97T

септимация (оставляем только воскресные снимки) экономит 10%

zstd-14 - процессор не справляется: первые 282 GiByte со средней скоростью 99.5 MiB/s

rsync с фильтрацией ненужного, recsize=16MB

база:
NAME                  LUSED   USED  COMPRESS        RATIO  DEDUP
bigpool/time_machine  28.3T  9.58T  zstd-14         2.99x  sha256
NAME                                           SIZE  ALLOC   FREE  CKPOINT  EXPANDSZ   FRAG    CAP  DEDUP    HEALTH  ALTROOT
bigpool                                        119T  7.60T   111T        -         -     0%     6%  1.26x    ONLINE  -
  tm                                           118T  7.55T   111T        -         -     0%  6.38%      -  ONLINE
special                                           -      -      -        -         -      -      -      -  -
  ata-INTEL_SSDSC2BB800G4_BTWL4135013B800RGN   744G  51.1G   693G        -         -    11%  6.86%      -  ONLINE 


суммарно по 20150325:
NAME                  LUSED   USED  COMPRESS        RATIO  DEDUP
bigpool/time_machine  66.7T  20.3T  zstd-14         3.33x  sha256
NAME                                           SIZE  ALLOC   FREE  CKPOINT  EXPANDSZ   FRAG    CAP  DEDUP    HEALTH  ALTROOT
bigpool                                        119T  13.6T   105T        -         -     0%    11%  1.49x    ONLINE  -
  tm                                           118T  13.4T   105T        -         -     0%  11.3%      -  ONLINE
special                                           -      -      -        -         -      -      -      -  -
  ata-INTEL_SSDSC2BB800G4_BTWL4135013B800RGN   744G   184G   560G        -         -    31%  24.7%      -  ONLINE

восстановление файловой системы (раздел shareh192 (хорошо сжимается), bacula (LZO) использует 600GB (сделано из 1685GB))
- gzip-6 (ЦП загружен, 183 MB/s) - 397 GB
- zstd-fast-1000 (однопоточная bacula не успевает разжимать LZO, 250 MB/s) ~ 1300 GB
- zstd-fast-500 (однопоточная bacula не успевает разжимать LZO, 250 MB/s) - 1273 GB
- zstd-fast-100 (однопоточная bacula не успевает разжимать LZO, 250 MB/s) - 1019 GB
- zstd-fast-10 (однопоточная bacula не успевает разжимать LZO, 250 MB/s) - 586 GB
- zstd-fast-1 (однопоточная bacula не успевает разжимать LZO, 250 MB/s) - 441 GB
- zstd-1 (однопоточная bacula не успевает разжимать LZO, 250 MB/s) - 415 GB
- zstd-3 (однопоточная bacula не успевает разжимать LZO, 247 MB/s, на 3 потока процессора не хватает - 440 MB/s) - 390 GB
- zstd-4 (однопоточная bacula не успевает разжимать LZO, 248 MB/s (2 потока ~ 417 MB/s, на 3 потока процессора не хватает - 414 MB/s)) - 390 GB
- zstd-5 (220 MB/s) - 383 GB
- zstd-6 (195 MB/s) - 381 GB

Дедупликация

ZFS использует синхронную дедупликацию, которая производится после сжатия (не надо менять сжатие на ходу!) на блочном уровне. Дедупликация воздействует на весь пул - дедуплицированные файлы могут ссылаться на записи в других файловых системах этого пула, производится дополнительная работа со всеми файлами пула, размер DDT определяется всем пулом, даже свойство dedupratio относится к пулу, а не файловой системе. Метаданные и каталоги не участвуют в дедупликации.

Для работы дедупликации необходимо ведение на ходу таблицы дедупликации (DDT), которая хранит хеш блока (sha256) и количество блоков, имеющих этот хеш. Каждый указатель на блок данных имеет флаг дедупликации, который взводится при записи при наличия дубля с таким же хешем. DDT не используется при чтении данных (если не произошло ошибки чтения и не пришлось читать запасную копию), DDT изменяется при записи, при удалении блока проверяется флаг дедупликации указателя на блок и при необходимости изменяется счётчик использования в DDT. Если счётчик уменьшается до нуля, то удаляется сама запись из DDT. DDT всегда есть, возможно пустая. На каждый пул заводится отдельная DDT (одна на весь пул; похоже, что заводится отдельная таблица на блоки с 1 ссылкой?). DDT относится к метаданным и пишется в режиме CoW. На каждый блок данных требуется 320 байт на диске ("zdb -L -D" сообщает, что требуется 449 байт для уникальных блоков и 476 байт для всех дублей с одним хешем на диске и 153/145 байт в памяти). Если грубо, то на каждый ТБ ёмкости хранилища необходимо от 1 до 5ГБ под DDT, для более точного подсчёта текущих потребностей необходимо получить количество блоков в пуле - bp count ("zdb -L -b имя-пула" - очень долго и нужно очень много памяти) и умножить на 320 (449 для уникальных блоков и 476 для каждой группы одинаковых). Занимаемое место отражается в USEDCHILD. При необходимости (?) регенерируется из метаданных.

Выключение дедупликации не отменяет необходимости вносить изменения в DDT при удалении блока.

При проверке и лечении DDT используется как источник ссылок, по которым надо пробежаться.

Для обеспечения нормальной скорости DDT должна быть в ARC, в крайнем случае - в L2ARC. При недостатке ARC и L2ARC удаление снимка может потребовать сутки (и его нельзя прервать даже перезагрузкой). Кроме DDT в ARC должно остаться место под прочие метаданные (в среднем 1% от ёмкости хранилища) и данные (3/4 от ARC, параметр zfs_arc_meta_limit модуля zfs?) с учётом максимального размера самого ARC и уровня фрагментации памяти (как узнать?). Кстати, записи DDT в L2ARC (300-500 байт?) требуют места под ссылки на них в ARC (180 байт?).

Если ожидается большой средний размер файла, то можно увеличить recordsize файловой системы с 128 КиБ до 1 МиБ, таким образом уменьшив потребности в памяти в 8 раз (в предельно оптимистичном случае). У меня средний размер блока получился равным 338 КБ до сжатия и 114 КБ после оного.

При выборе SSD под L2ARC необходимо учитывать большую и непрерывную нагрузку, так что надо не хуже Intel DC S3600 (S3500?). Предполагаемая производительность DDR3 в этом режиме - 100-150k IOPS.

Встречаются самые разные рекомендации от необходимости вынесения всех дедуплицированных файловых систем в отдельный пул до категорического неприятия дедупликации как таковой. Важной информацией для решения является степень дедупликации dedupratio, предсказать её можно командой "zdb -S имя-пула" (очень долго, строится временная DDT - заодно узнаете достаточно ли у Вас памяти ;).

Офлайновую дедупликацию сделать не получится, т.к. отсутствует механизм прозрачной для пользователя перезаписи блоков данных и метаданных. Этот же механизм (BPR - Block Pointer Rewrite, ожидается с 2008) позволит сделать дефрагментацию, ребалансировку, уменьшение пула или vdev и т.д..

Утилита zdb

Утилита zdb позволяет узнать полезную информацию о текущем состоянии ZFS, базовые ключи ("-L" - не делать проверок):

-C # посмотреть содержимое /etc/zfs/zpool.cache
-CC # посмотреть в кеше и на диске
-CCe # посмотреть и предсказать последствия импорта
-mm имя-пула # гистограммы распределения размеров свободных сегментов для каждого метаслаба
-mmmm имя-пула # про каждый блок выдаёт: свободен/не свободен, смещение, размер
-MM # информация о группах метаслабов: количество, фрагментация, гистограмма свободного места
-b имя-пула # статистика по количеству и среднему размеру блока - логический, физический, выделенный, дедупликация (очень долго)

-bb # статистика по количеству и среднему размеру блока, распределение по типам данных, основное место:

        bp count:         9491559
        ganged count:           0
        bp logical:    2377513919488      avg: 250487
        bp physical:   829797686272      avg:  87424     compression:   2.87
        bp allocated:  844293709824      avg:  88952     compression:   2.82
        bp deduped:    144363376640    ref>1: 577485   deduplication:   1.17
        SPA allocated: 700137218048     used:  7.08%

        additional, non-pointer bps of type 0:     819384
        Dittoed blocks on same vdev: 797739

Blocks  LSIZE   PSIZE   ASIZE     avg    comp   %Total  Type
 8.98K  37.3M   36.2M    109M   12.1K    1.03     0.01  SPA space map
  222K  3.46G    894M   1.75G   8.06K    3.97     0.22  DMU dnode
 7.51M  2.16T    771G    780G    104K    2.87    99.15  ZFS plain file
 1.19M  1.04G    457M   3.37G   2.82K    2.33     0.43  ZFS directory
  122K   489M    489M   1.43G   12.0K    1.00     0.18  DDT ZAP algorithm
   266  1.26M   1.04M   3.13M   12.0K    1.21     0.00  deferred free
 9.05M  2.16T    773G    786G   86.9K    2.87   100.00  Total

-S имя-пула # предсказать коэффициент дедупликации (строит временную DDT, очень долго, требуется очень много ОП)
-d имя-пула # показать информацию о наборах данных, включая снимки и MOS: имя, идентификатор объекта, количество транзакций, размер (referenced), количество объектов; "-dd" выдаёт информацию о каждом объекта, в частности MOS содержит DDT и можно узнать её реальный размер
-D имя-пула # показать общую статистику дедупликации: дедупликация, сжатие, произведение (быстро, т.к. хранится в MOS); "-DD" - показать объединённую гистограмму по числу ссылок; "-DDD" - показать гистограммы для каждой DDT в отдельности
-h # история команд
-i # информация о ZIL
-l устройство # вывести метку ZFS
-ll устройство # вывести метку ZFS и статистику использования
-lll устройство # вывести все метки ZFS и статистику использования
-lll устройство # вывести все метки и уберблоки ZFS и статистику использования
-u # вывести уберблок
-s # статистика ввода/вывода: количество, пропускная способность (?), ошибки; запись везде 0

zdb не согласует свои действия с модулем ядра, при активном использовании может показывать и делать всякое.

zfs_ids_to_path имя-пула идентификатор-набора идентификатор-объекта - преобразовать идентификаторы в имя файла и путь.

zinject - создаёт искусственные проблемы в пуле ZFS симулируя повреждение данных и сбой устройств.

Утилиты сбора статистики

arc_summary (ранее arc_summary.py) - статистика использования ARC. Ключи:

-h
-a # значения переметров в альтернативном формате (имя=значение)
-d # вывести описание к каждому параметру модуля
-g # кратко и в форме ASCII графика
-p секция-отчёта # устарело; ("-p 1" и "-p 2") и L2ARC ("-p 3") и DMU ("-p 4") и значения параметров модулей ядра ("-p 6 -d")
-s секция-отчёта # секции: arc archits dmu l2arc spl tunables vdev zil

arcstat интервал количество (ранее arcstat.py) - iostat для кеша. Ключи:

-h
-v # вывести заголовки полей
-a # вся статистика
-x # расширенная статистика
-f список-полей # см. вывод -v
-o имя-файла-вывода
-s разделитель-полей
-p # не масштабировать значения

dbufstat (ранее dbufstat.py) - статистика (ключ "-t") и содержимое объектов в памяти. Ключи:

-h
-v # вывести заголовки полей
-b # информация для каждого dbuf
-d # информация для каждого dnode
-n # не выводить заголовки
-r # выводить необработанные значения
-t # вывести таблицу для каждого типа dnode
-x # расширенная статистика
-o имя-файла-вывода
-i имя-файла-ввода
-f список-полей # см. вывод -v
-s разделитель-полей
-F фильтр # pool=имя-пула,...

zilstat - скрипт на python. Ключи:

-h
-v # вывести заголовки полей
-a # много статистики
-p имя-пула
-d имя-набора-данных
-f имя-поля # см. вывод -v
-s разделитель-полей
-i секунд # интервал между отчётами

Прочие утилиты

Заглушка fsck.zfs. Некоторые дистрибутивы хотят утилиту fsck для каждого типа файловой системы, но имеющийся в ZFS scrub работает для всего пула и довольно долго, поэтому предоставляется заглушка в виде fsck.zfs, которая запрашивает текущий статус пула и может вернуть 4 (пул деградировал) и 8 (пул неисправен).

mount.zfs имя точка-монтирования - вспомогательная утилита для монтирования снимков или файловой системы в режиме mountpoint=legacy (/etc/fstab). Рекомендуется использовать mount или "zfs mount". Ключи:

-s # игнорировать незнакомые опции
-f # имитация монтирования
-n # не изменять /etc/mtab
-v # вывести опции и прочую информацию
-h
-o zfsutil # используется в "zfs mount"

zgenhostid - создать файл /etc/hostid и записать в него идентификатор хоста (бинарные случайные данные). Идентификатор хоста требуется для экспорта и импорта пула. См. параметры модуля spl: spl_hostid (0 - не использовать или случайное число?) и spl_hostid_path (/etc/hostid). Пакет initscripts имеет утилиту genhostid, которая делает тоже самое и утилиту hostid, которая выводит идентификатор хоста в виде IP адреса с переставленными байтами.

zpios - стресс-тестирование DMU.

zstream (она же zstreamdump) позволяет манипулировать потоком, создаваемым "zfs send", на стандартном вводе:

zstream dump # вывести информацию о потоке, включая заголовки и счётчики записей, ключи:
- имя-файла
- -C # не проверять контрольные суммы
- -v # выводить метаданные
- -d # выводить данные
zstream token токен # вывести информацию, начиная с токена
zstream decompress объект,смещение,тип-сжатия # вывести данные после декомпрессии
zstream recompress [-l уровень] алгоритм # разжать и снова сжать

ztest - тесты регрессии для ZFS.

raidz_test - тест RAID-Z.

zvol_wait - ожидание появления блочных устройств в /dev/zvol после импорта пула.

udev и vdev

Видимо, в Solaris нет udev и пришлось делать своё. vdev_id (vdev_id.8) используя /etc/zfs/vdev_id.conf (vdev_id.conf.5) создаёт "правильные" имена для устройств хранения в /dev/disk/by-vdev. Предлагаются примеры для multipath, sas_direct, sas_switch и scsi.

Используется в Linux подсистемой udev, для которой предоставляются правила udev в /usr/lib/udev/rules.d/: 60-zvol.rules (имена томов для блочных устройств в /dev/zvol/), 69-vdev.rules (слоты корзины) и 90-zfs.rules (загрузка модуля zfs).

Система извещений

Модули ядра генерируют сообщения (zpool-events.8) при наступлении событий. Сообщения обрабатываются сервисом zed (zed.8, ZFS Event Daemon), вызывает скрипты (bash), которые хранятся в /etc/zfs/zed.d/ (ссылки на /usr/libexec/zfs/zed.d/). Настройки: /etc/zfs/zed.d/zed.rc. Сигнал SIGHUP вызывает реконфигурацию сервиса. Мешает выгружать модуль zfs.

Настройки systemd

Службы (/usr/lib/systemd/system/) systemd (настройки в /usr/lib/systemd/system-preset/50-zfs.preset):

zfs-import-scan.service (из zfs-import.target, "zpool import -aN -o cachefile=none")
zfs-import-cache.service (из zfs-import.target, "zpool import -c /etc/zfs/zpool.cache -aN")
zfs-import.service (ссылка на /dev/null?)
zfs-mount.service (из zfs.target, после zfs-import.target, "zfs mount -a")
zfs-share.service (из zfs.target, после zfs-mount.service, до nfs-server.service, "zfs share -a"))
zfs-zed.service (из zfs.target, "zed -F")
zfs-volume-wait.service (из zfs-volumes.target, "/usr/bin/zvol_wait")

Цели: zfs.target (из multi-user.target), zfs-import.target (из zfs.target), zfs-volumes.target (из zfs.target, после zfs-volume-wait.service).

zfs-mount-generator - генератор юнитов systemd.mount(5) исходя из свойств наборов данных (mountpoint не legacy или none, canmount не off), обрабатывает noauto, atime=, relatime=, devices=, exec=, readonly=, setuid=, nbmand=. Хранит кеш в /etc/zfs/zfs-list.cache/poolname (не обнаружил). Тестовый пример не пройден.

Выделенный сервер архива без дедупликации

Выделенный сервер архива без дедупликации: 8 ядер по 3.5GHz, 64 ГиБ ОП, сеть 10Gbps, большой локальный массив (LSI MEGARAID 2xRAID-6 of 18 SATA HDD LFF 2000GB 7200 rpm (старые больные диски) + lvmcache на SSD Intel DC S3500).

Параметры модуля spl (/etc/modprobe.d/spl.conf): отсутствуют.

Параметры модуля zfs (/etc/modprobe.d/zfs.conf): отсутствуют.

Создание пула (надо было xattr=sa и без utf8only, выше gzip-7 не тянет, вместе с relatime надо включать atime, checksum лучше делать sha256):

zpool create -f -m /time_machine -o ashift=12 -o listsnapshots=on \
-d -o feature@async_destroy=enabled -o feature@empty_bpobj=enabled -o feature@lz4_compress=enabled -o feature@spacemap_histogram=enabled -o feature@extensible_dataset=enabled -o feature@bookmarks=enabled -o feature@enabled_txg=enabled -o feature@embedded_data=enabled -o feature@large_blocks=enabled \
-O utf8only=on \
-O compression=gzip-7 \
-O atime=off -O relatime=on \
-O acltype=posixacl -O xattr=on \
-O dedup=off \
-O redundant_metadata=most \
-O sync=disabled -O logbias=throughput \
-O snapdir=visible \
time_machine dm-name-x136all36-share

Наполнение архива с помощью rsync (40 потоков, "--max-size=100GB -vas --inplace --numeric-ids --ignore-errors --delete").

Статистика после заполнения первого дня, в 1.5 раза дольше btrfs поверх того же аппаратного RAID и LVM cache, примерно тот же объём (но 3.5% - 2 ТБ - заблокировано):

df -B MB /time_machine
Filesystem     1MB-blocks       Used  Available Use% Mounted on
time_machine   61778751MB 11329313MB 50449439MB  19% /time_machine

zpool list
NAME           SIZE  ALLOC   FREE  EXPANDSZ   FRAG    CAP  DEDUP  HEALTH  ALTROOT
time_machine    58T  10.3T  47.7T         -    14%    17%  1.00x  ONLINE  -

zfs  list -o compress,compressratio,refcompressratio,usedbychildren,usedbydataset,usedbyrefreservation,usedbysnapshots
COMPRESS  RATIO  REFRATIO  USEDCHILD  USEDDS  USEDREFRESERV  USEDSNAP
  gzip-7  2.56x     2.56x      56.0M   10.3T              0         0

zfs list
NAME           USED  AVAIL  REFER  MOUNTPOINT
time_machine  10.3T  45.9T  10.3T  /time_machine

Статистика блоков после заполнения первого дня

zdb -b time_machine
Traversing all blocks to verify nothing leaked ...

loading space map for vdev 0 of 1, metaslab 64 of 116 ...
10.3T completed (1421MB/s) estimated time remaining: 0hr 00min 00sec
        No leaks (block sum matches space maps exactly)

        bp count:       291107412
        ganged count:           0
        bp logical:    28883875873792      avg:  99220
        bp physical:   11236123043328      avg:  38597     compression:   2.57
        bp allocated:  11329371234304      avg:  38918     compression:   2.55
        bp deduped:             0    ref>1:      0   deduplication:   1.00
        SPA allocated: 11329371234304     used: 17.77%

        additional, non-pointer bps of type 0:   24469613
        Dittoed blocks on same vdev: 5579261

Статистика после заполнения 23-го дня:

df -i /time_machine
Filesystem          Inodes    IUsed       IFree IUse% Mounted on
time_machine   93362015349 78754757 93283260592    1% /time_machine

df -B MB /time_machine
Filesystem     1MB-blocks       Used  Available Use% Mounted on
time_machine   60204402MB 12443373MB 47761030MB  21% /time_machine

zpool list
NAME           SIZE  ALLOC   FREE  EXPANDSZ   FRAG    CAP  DEDUP  HEALTH  ALTROOT
time_machine    58T  12.7T  45.3T         -    14%    21%  1.00x  ONLINE  -

zfs  list time_machine -o compress,compressratio,refcompressratio,usedbychildren,usedbydataset,usedbyrefreservation,usedbysnapshots
COMPRESS  RATIO  REFRATIO  USEDCHILD  USEDDS  USEDREFRESERV  USEDSNAP
  gzip-7  2.78x     2.64x      1.36G   11.3T              0     1.43T

zfs list|head -4;zfs list |tail -4
NAME                    USED  AVAIL  REFER  MOUNTPOINT
time_machine           12.7T  43.4T  11.3T  /time_machine
time_machine@20140801  16.3G      -  10.3T  -
time_machine@20140802  3.52G      -  10.9T  -
time_machine@20140820  13.9G      -  11.1T  -
time_machine@20140821  6.93G      -  11.2T  -
time_machine@20140822  2.80G      -  11.2T  -
time_machine@20140823  1.87G      -  11.3T  -

Статистика после заполнения 96-го дня (фрагментация свободного пространства всё ещё приличная):

df -i /time_machine
Filesystem          Inodes    IUsed       IFree IUse% Mounted on
time_machine   86838204271 81602375 86756601896    1% /time_machine

df -B MB /time_machine
Filesystem     1MB-blocks       Used  Available Use% Mounted on
time_machine   58034215MB 13614834MB 44419381MB  24% /time_machine

zpool list
NAME           SIZE  ALLOC   FREE  EXPANDSZ   FRAG    CAP  DEDUP  HEALTH  ALTROOT
time_machine    58T  15.8T  42.2T         -    19%    27%  1.00x  ONLINE  -

zfs  list time_machine -o compress,compressratio,refcompressratio,usedbychildren,usedbydataset,usedbysnapshots
COMPRESS  RATIO  REFRATIO  USEDCHILD  USEDDS  USEDSNAP
  gzip-7  2.89x     2.65x      3.41G   12.4T     3.40T

zfs list|head -4;zfs list |tail -4
NAME                    USED  AVAIL  REFER  MOUNTPOINT
time_machine           15.8T  40.4T  12.4T  /time_machine
time_machine@20140801  16.3G      -  10.3T  -
time_machine@20140802  3.52G      -  10.9T  -
time_machine@20141031  1.41G      -  12.3T  -
time_machine@20141101  2.47G      -  12.4T  -
time_machine@20141102  1.34G      -  12.4T  -
time_machine@20141103   298M      -  12.4T  - 

zdb -L -b time_machine

Traversing all blocks ...

16.4T completed ( 671MB/s) estimated time remaining: 0hr 00min 04sec         
	bp count:       500483120
	ganged count:           0
	bp logical:    52499166426624      avg: 104896
	bp physical:   17887185559552      avg:  35739     compression:   2.94
	bp allocated:  18031836352512      avg:  36028     compression:   2.91
	bp deduped:             0    ref>1:      0   deduplication:   1.00
	SPA allocated: 18031836352512     used: 28.28%

	additional, non-pointer bps of type 0:   29943472
	Dittoed blocks on same vdev: 12402758

Статистика L2ARC:

L2 ARC Size: (Adaptive)				254.89	GiB
	Compressed:			49.48%	126.12	GiB
	Header Size:			0.23%	598.29	MiB

L2 ARC Breakdown:				2.54b
	Hit Ratio:			3.19%	81.03m
	Miss Ratio:			96.81%	2.46b
	Feeds:					228.49k

zfs set secondarycache=metadata time_machine
zpool remove time_machine /dev/system/l2arc
zpool add time_machine cache /dev/system/l2arc # статистика общая

Попытался выполнить "zdb -S" на системе с 64ГиБ ОП и распределённым пулом 21 ТиБ (из 58 ТиБ). После 3 часов молчаливой работы система начала тупить (трешинг свопа? вплоть до "сервер недоступен" в мониторинге), при этом zdb потребил почти 19 ГиБ, top показывал наличие свободной памяти.

Статистика после заполнения 236-го дня (фрагментация свободного пространства всё ещё приличная, средний прирост - 70 ГБ в день):

df -i /time_machine
Filesystem          Inodes     IUsed       IFree IUse% Mounted on
time_machine   66644509563 108181763 66536327800    1% /time_machine

df -B MB /time_machine
Filesystem     1MB-blocks       Used  Available Use% Mounted on
time_machine   47971509MB 13904913MB 34066597MB  29% /time_machine

zpool list -v
NAME   SIZE  ALLOC   FREE  EXPANDSZ   FRAG    CAP  DEDUP  HEALTH  ALTROOT
time_machine    58T  25.2T  32.8T         -    32%    43%  1.00x  ONLINE  -
  dm-name-x136all36-share    58T  25.2T  32.8T         -    32%    43%
cache      -      -      -         -      -      -
  l2arc   145G  12.5G   132G         -     0%     8%

zfs list time_machine -o compress,compressratio,refcompressratio,usedbychildren,usedbydataset,usedbysnapshots
COMPRESS  RATIO  REFRATIO  USEDCHILD  USEDDS  USEDSNAP
  gzip-7  3.01x     2.64x      11.7G   12.6T     12.5T

Статистика после заполнения 300-го дня:

df -i /time_machine
Filesystem          Inodes     IUsed       IFree IUse% Mounted on
time_machine   59961056654 114028446 59847028208    1% /time_machine

df -B MB /time_machine
Filesystem     1MB-blocks       Used  Available Use% Mounted on
time_machine   44739499MB 14097821MB 30641679MB  32% /time_machine

zpool list -v
NAME   SIZE  ALLOC   FREE  EXPANDSZ   FRAG    CAP  DEDUP  HEALTH  ALTROOT
time_machine    58T  28.3T  29.7T         -    36%    48%  1.00x  ONLINE  -
  dm-name-x136all36-share    58T  28.3T  29.7T         -    36%    48%
cache      -      -      -         -      -      -
  l2arc   145G  13.7G   131G         -     0%     9%

zfs list time_machine -o compress,compressratio,refcompressratio,usedbychildren,usedbydataset,usedbysnapshots
COMPRESS  RATIO  REFRATIO  USEDCHILD  USEDDS  USEDSNAP
  gzip-7  3.05x     2.56x      14.6G   12.8T     15.5T

Статистика после заполнения 365-го дня:

df -i /time_machine
Filesystem          Inodes     IUsed       IFree IUse% Mounted on
time_machine   52350051528 118689584 52231361944    1% /time_machine

df -B MB /time_machine
Filesystem     1MB-blocks       Used  Available Use% Mounted on
time_machine   42062128MB 15319671MB 26742458MB  37% /time_machine

zpool list -v
NAME   SIZE  ALLOC   FREE  EXPANDSZ   FRAG    CAP  DEDUP  HEALTH  ALTROOT
time_machine    58T  31.9T  26.1T         -    41%    54%  1.00x  ONLINE  -
  dm-name-x136all36-share    58T  31.9T  26.1T         -    41%    54%
cache      -      -      -         -      -      -
  l2arc   145G  14.7G   130G         -     0%    10%

zfs list time_machine -o compress,compressratio,refcompressratio,usedbychildren,usedbydataset,usedbysnapshots
COMPRESS  RATIO  REFRATIO  USEDCHILD  USEDDS  USEDSNAP
  gzip-7  3.05x     2.54x      17.1G   13.9T     17.9T

Статистика после заполнения 512-го дня:

df -i /time_machine
Filesystem          Inodes     IUsed       IFree IUse% Mounted on
time_machine   31871545123 123555195 31747989928    1% /time_machine

df -B MB /time_machine
Filesystem     1MB-blocks       Used  Available Use% Mounted on
time_machine   31505671MB 15250700MB 16254971MB  49% /time_machine

zpool list -v
NAME   SIZE  ALLOC   FREE  EXPANDSZ   FRAG    CAP  DEDUP  HEALTH  ALTROOT
time_machine    58T  41.4T  16.6T         -    54%    71%  1.00x  ONLINE  -
  dm-name-x136all36-share    58T  41.4T  16.6T         -    54%    71%
cache      -      -      -         -      -      -
  l2arc   145G  16.0G   129G         -     0%    11%

zfs list time_machine -o compress,compressratio,refcompressratio,usedbychildren,usedbydataset,usedbysnapshots
COMPRESS  RATIO  REFRATIO  USEDCHILD  USEDDS  USEDSNAP
  gzip-7  3.10x     2.58x      25.2G   13.9T     27.5T

Предварительный итог: zfs без дедупликации ненастроенный со сжатием gzip-7, без файлов копирования файлов размером более 100ГБ, rsync в режиме --inplace, с 20140801 по 20151217 (503 дня)

первый день - 11329371234304
всего - 44254378983424
в день - 65457271867 (в 1.6 раза меньше btrfs; сравнение не совсем честное, т.к. изменения идут по нарастающей и теперь не копируются файлы размером более 100 ГБ)

Несколько часов что-то делал без видимого результата (не было ввода/вывода, rngd + txg_sync + z_null_iss + txg_quiesce + rsync). Убийство rsync не помогло, второй rsync не убился. Неожиданно помогла попытка размонтировать файловую систему ("zfs unmount time_machine", не "umount /time_machine"): размонтировать отказался, но "плохое место" проскочил (а может просто совпало? дважды, но на третий раз пришлось убить rsync, размонтировать, смонтировать и перезапустить задачи вручную). На следующем витке не повторилось, т.е. проблема возникает из-за сочетания обстоятельств.

Выделенный сервер архива с дедупликацией

Выделенный сервер архива с дедупликацией: 12 ядер по 3.5GHz, 80 ГиБ ОП, сеть 1Gbps, локальный массив среднего размера (LSI MEGARAID RAID-6 of 15 HDD SFF 1800GB 10k rpm).

Параметры модуля spl (/etc/modprobe.d/spl.conf): отсутствуют.

Параметры модуля zfs (/etc/modprobe.d/zfs.conf): отсутствуют.

Создание пула (надо было xattr=sa и без utf8only, выше gzip-8 не тянет, вместе с relatime надо включать atime, checksum лучше делать sha256):

zpool create -f -m /time_machine -o ashift=12 \
-d -o feature@async_destroy=enabled -o feature@empty_bpobj=enabled -o feature@lz4_compress=enabled -o feature@spacemap_histogram=enabled -o feature@extensible_dataset=enabled -o feature@bookmarks=enabled -o feature@enabled_txg=enabled -o feature@embedded_data=enabled -o feature@large_blocks=enabled \
-O utf8only=on \
-O compression=gzip-8 \
-O atime=off -O relatime=on \
-O acltype=posixacl -O xattr=on \
-O dedup=on \
-O redundant_metadata=most \
-O sync=disabled -O logbias=throughput \
-O snapdir=visible \
-O recordsize=1048576 \
tm_small scsi-3600605b008ca05c01fc0c51340366923 cache /dev/system/l2arc

Наполнение архива с помощью rsync (40 потоков, "--max-size=100GB -vas --inplace --numeric-ids --ignore-errors --delete").

Статистика блоков (в самом начале):

zdb -L -b tm_small

3.74T completed (1014MB/s) estimated time remaining: 46259hr 54min 49sec        4294967241sec
        bp count:       113034474
        ganged count:           0
        bp logical:    9842270394880      avg:  87073
        bp physical:   3968674195968      avg:  35110     compression:   2.48
        bp allocated:  4115137540096      avg:  36406     compression:   2.39
        bp deduped:    953664348160    ref>1: 8947494   deduplication:   1.23
        SPA allocated: 3161473191936     used: 13.53%

        additional, non-pointer bps of type 0:    5667515
        Dittoed blocks on same vdev: 5681636

Статистика после заполнения первого дня (большая фрагментация свободного пространства):

df -i /time_machine
Filesystem          Inodes    IUsed       IFree IUse% Mounted on
tm_small       26910345944 76876211 26833469733    1% /time_machine

df -B G /time_machine
Filesystem     1G-blocks   Used Available Use% Mounted on
tm_small          23363G 10568G    12796G  46% /time_machine

zpool list -v
NAME   SIZE  ALLOC   FREE  EXPANDSZ   FRAG    CAP  DEDUP  HEALTH  ALTROOT
tm_small  21.2T  8.02T  13.2T         -    44%    37%  1.30x  ONLINE  -
  scsi-3600605b008ca05c01fc0c51340366923  21.2T  8.02T  13.2T         -    44%    37%
cache      -      -      -         -      -      -
  l2arc   300G   202G  97.8G         -     0%    67%

zfs  list -o compress,compressratio,refcompressratio,usedbychildren,usedbydataset,usedbyrefreservation,usedbysnapshots
COMPRESS  RATIO  REFRATIO  USEDCHILD  USEDDS  USEDREFRESERV  USEDSNAP
  gzip-8  2.56x     2.56x      79.4G   10.3T              0         0

zfs list
NAME       USED  AVAIL  REFER  MOUNTPOINT
tm_small  10.4T  12.5T  10.3T  /time_machine

Статистика после заполнения 6-го дня:

df -i /time_machine
Filesystem          Inodes    IUsed       IFree IUse% Mounted on
tm_small       25355323516 77948660 25277374856    1% /time_machine

df -B G /time_machine
Filesystem     1G-blocks   Used Available Use% Mounted on
tm_small          23334G 11281G    12054G  49% /time_machine

zpool list -v
NAME   SIZE  ALLOC   FREE  EXPANDSZ   FRAG    CAP  DEDUP  HEALTH  ALTROOT
tm_small  21.2T  8.74T  12.5T         -    48%    41%  1.29x  ONLINE  -
  scsi-3600605b008ca05c01fc0c51340366923  21.2T  8.74T  12.5T         -    48%    41%
cache      -      -      -         -      -      -
  l2arc   300G   143G   157G         -     0%    47%

zfs  list -o compress,compressratio,refcompressratio,usedbychildren,usedbydataset,usedbyrefreservation,usedbysnapshots tm_small
COMPRESS  RATIO  REFRATIO  USEDCHILD  USEDDS  USEDREFRESERV  USEDSNAP
  gzip-8  2.66x     2.63x      91.8G   11.0T              0      157G

zfs list
NAME                USED  AVAIL  REFER  MOUNTPOINT
tm_small           11.3T  11.8T  11.0T  /time_machine
tm_small@20140801  15.8G      -  10.3T  -
tm_small@20140802  3.50G      -  10.9T  -
tm_small@20140803  2.44G      -  10.9T  -
tm_small@20140804   623M      -  10.9T  -
tm_small@20140805  43.1G      -  11.1T  -

Статистика дедупликации:

zpool status -D

dedup: DDT entries 188783133, size 458 on disk, 148 in core

bucket              allocated                       referenced
______   ______________________________   ______________________________
refcnt   blocks   LSIZE   PSIZE   DSIZE   blocks   LSIZE   PSIZE   DSIZE
------   ------   -----   -----   -----   ------   -----   -----   -----
     1     148M   17.3T   7.61T   7.63T     148M   17.3T   7.61T   7.63T
     2    25.5M   2.89T    954G    958G    55.6M   6.26T   2.01T   2.02T
     4    4.95M    528G    144G    145G    23.7M   2.45T    669G    676G
     8    1.21M    110G   25.2G   25.9G    12.4M   1.11T    256G    262G
    16     437K   37.7G   8.54G   8.77G    9.26M    822G    188G    192G
    32     141K   11.5G   2.18G   2.27G    5.90M    487G   92.0G   96.0G
    64    45.2K   2.69G    600M    644M    3.80M    227G   50.6G   54.4G
   128    19.8K    841M    282M    304M    3.37M    144G   47.9G   51.6G
   256    14.7K    744M    456M    471M    4.94M    247G    153G    158G
   512    5.57K    198M   57.3M   62.9M    3.68M    128G   34.6G   38.5G
    1K    1.93K    127M   35.7M   37.4M    2.44M    151G   43.3G   45.5G
    2K      584   44.5M   21.0M   21.5M    1.84M    156G   77.8G   79.3G
    4K      291   3.59M    370K   1.14M    1.68M   19.1G   2.00G   6.73G
    8K       79   2.40M    148K    316K     935K   34.1G   1.87G   3.65G
   16K       35   1.65M     73K    140K     710K   28.6G   1.31G   2.77G
   32K       37   2.29M     98K    148K    1.68M    118G   4.80G   6.71G
   64K       10    337K   29.5K     40K     889K   28.2G   2.66G   3.47G
  128K       24   2.50M     82K     96K    4.65M    516G   16.4G   18.6G
  256K        4      2K      2K     16K    1.58M    811M    811M   6.34G
  512K        1     512     512      4K     649K    324M    324M   2.53G
    1M        1    128K      4K      4K    1.35M    173G   5.40G   5.40G
    2M        1     512     512      4K    2.76M   1.38G   1.38G   11.1G
 Total     180M   20.9T   8.72T   8.74T     291M   30.3T   11.2T   11.3T

Статистика после заполнения 33-го дня (чудовищная фрагментация свободного места):

df -i /time_machine
Filesystem          Inodes    IUsed       IFree IUse% Mounted on
tm_small       21932741784 79019953 21853721831    1% /time_machine

df -B MB /time_machine
Filesystem     1MB-blocks       Used  Available Use% Mounted on
tm_small       23833665MB 12644559MB 11189106MB  54% /time_machine

zpool list -v
NAME   SIZE  ALLOC   FREE  EXPANDSZ   FRAG    CAP  DEDUP  HEALTH  ALTROOT
tm_small  21.2T  10.3T  10.9T         -    58%    48%  1.30x  ONLINE  -
  scsi-3600605b008ca05c01fc0c51340366923  21.2T  10.3T  10.9T         -    58%    48%
cache      -      -      -         -      -      -
  l2arc   300G   182G   118G         -     0%    60%

zfs list tm_small -o compress,compressratio,refcompressratio,usedbychildren,usedbydataset,usedbysnapshots
COMPRESS  RATIO  REFRATIO  USEDCHILD  USEDDS  USEDSNAP
  gzip-8  2.79x     2.66x       129G   11.5T     1.74T

zfs list|head -4;zfs list |tail -4
NAME                USED  AVAIL  REFER  MOUNTPOINT
tm_small           13.4T  10.2T  11.5T  /time_machine
tm_small@20140801  15.8G      -  10.3T  -
tm_small@20140802  3.50G      -  10.9T  -
tm_small@20140831   174M      -  11.5T  -
tm_small@20140901  2.74G      -  11.5T  -
tm_small@20140902  20.9G      -  11.5T  -
tm_small@20140903   216M      -  11.5T  -

Тест прерван в пользу улучшенного варианта.

Выделенный сервер архива с дедупликацией настроенный

2048 в /proc/sys/kernel/random/read_wakeup_threshold (или "kernel.random.read_wakeup_threshold = 2048" в /etc/sysctl.conf).

Параметры модуля spl (/etc/modprobe.d/spl.conf): отсутствуют.

Параметры модуля zfs (/etc/modprobe.d/zfs.conf):

options zfs zfs_autoimport_disable=0
options zfs spa_asize_inflation=3 # нет зеркал/raid и никаких дополнительных копий, кроме метаданных (most)
#options zfs spa_slop_shift=6
options zfs metaslab_lba_weighting_enabled=0
options zfs zio_taskq_batch_pct=85 # больше не надо
options zfs_txg_timeout=30
options zfs zfs_nocacheflush=1
options zfs zfs_arc_max=60000000000
#options zfs zfs_arc_max=77309411328
#options zfs zfs_arc_meta_limit=?
options zfs zfs_arc_average_blocksize=32768 # можно 65536
#options zfs zfs_arc_lotsfree_percent=5
#options zfs zvol_inhibit_dev=1
#options zfs zfs_admin_snapshot=1

Создание пула (bin/zfsdedup.sh, вместе с relatime надо включать atime, checksum лучше делать sha256, составное LVM устройство в режиме RAID-0 разобрать):

zpool create -f -m /time_machine -o ashift=12 \
-d -o feature@async_destroy=enabled -o feature@empty_bpobj=enabled -o feature@lz4_compress=enabled -o feature@spacemap_histogram=enabled -o feature@extensible_dataset=enabled -o feature@bookmarks=enabled -o feature@enabled_txg=enabled -o feature@embedded_data=enabled -o feature@large_blocks=enabled \
-O compression=gzip-8 \
-O atime=off -O relatime=off \
-O acltype=posixacl -O xattr=sa \
-O dedup=on \
-O redundant_metadata=most \
-O sync=disabled -O logbias=throughput \
-O snapdir=visible \
-O recordsize=1048576 \
-O secondarycache=metadata \
tm_small scsi-3600605b008ca05c01fc0c51340366923 cache /dev/system/l2arc

mkdir /time_machine/{colddata,raid,share4h,share4s,share4x,share5c,xeon01,xeon04}

Наполнение архива с помощью rsync (20 потоков, "--max-size=100GB -vas --inplace --numeric-ids --ignore-errors --delete").

Статистика после начального заполнения первого дня:

df -i /time_machine
Filesystem          Inodes    IUsed       IFree IUse% Mounted on
tm_small       27371887339 76877617 27295009722    1% /time_machine

df -B MB /time_machine
Filesystem     1MB-blocks       Used  Available Use% Mounted on
tm_small       24948903MB 10973859MB 13975045MB  44% /time_machine

zpool list -v
NAME   SIZE  ALLOC   FREE  EXPANDSZ   FRAG    CAP  DEDUP  HEALTH  ALTROOT
tm_small  21.2T  7.81T  13.4T         -    30%    36%  1.28x  ONLINE  -
  scsi-3600605b008ca05c01fc0c51340366923  21.2T  7.81T  13.4T         -    30%    36%
cache      -      -      -         -      -      -
  l2arc   300G   240G  60.5G         -     0%    79%

zfs list tm_small -o compress,compressratio,refcompressratio,usedbychildren,usedbydataset,usedbysnapshots
COMPRESS  RATIO  REFRATIO  USEDCHILD  USEDDS  USEDSNAP
  gzip-8  2.70x     2.70x      19.0G   9.98T         0

zfs list|head -4;zfs list |tail -4
NAME       USED  AVAIL  REFER  MOUNTPOINT
tm_small  10.0T  12.7T  9.98T  /time_machine

Статистика дедупликации после начального заполнения первого дня:

zpool status -D
 dedup: DDT entries 34317141, size 481 on disk, 155 in core

bucket              allocated                       referenced
______   ______________________________   ______________________________
refcnt   blocks   LSIZE   PSIZE   DSIZE   blocks   LSIZE   PSIZE   DSIZE
------   ------   -----   -----   -----   ------   -----   -----   -----
     1    25.6M   15.4T   6.80T   6.82T    25.6M   15.4T   6.80T   6.82T
     2    5.04M   2.38T    785G    789G    11.1M   5.15T   1.66T   1.66T
     4    1.37M    477G    125G    127G    6.72M   2.22T    582G    589G
     8     480K    104G   21.2G   21.8G    4.79M   1.05T    216G    222G
    16     179K   34.6G   7.16G   7.37G    3.77M    757G    158G    162G
    32    62.2K   10.2G   1.79G   1.88G    2.65M    433G   75.6G   79.5G
    64    28.6K   2.12G    507M    551M    2.45M    187G   43.1G   46.9G
   128    14.7K    762M    213M    233M    2.53M    129G   34.2G   37.8G
   256    9.93K    731M    447M    462M    3.39M    245G    149G    155G
   512    4.51K    194M   53.6M   59.1M    2.98M    123G   31.9G   35.7G
    1K    1.06K    119M   32.7M   34.3M    1.41M    152G   39.5G   41.7G
    2K      279   48.2M   20.3M   20.9M     800K    159G   75.5G   77.0G
    4K      283   18.4M    344K   1.11M    1.64M    107G   1.89G   6.59G
    8K       59   2.13M     76K    236K     660K   25.9G    886M   2.58G
   16K       35   12.0M   69.5K    140K     712K    219G   1.28G   2.78G
   32K       25   7.04M   53.5K    100K     997K    250G   2.10G   3.89G
   64K        9   1.08M   25.5K     36K     848K    133G   2.50G   3.31G
  128K        5   2.50K   2.50K     20K     880K    440M    440M   3.44G
  256K        3   1.50K   1.50K     12K    1.31M    670M    670M   5.24G
  512K        1     512     512      4K     642K    321M    321M   2.51G
    2M        1     512     512      4K    2.72M   1.36G   1.36G   10.9G
 Total    32.7M   18.3T   7.72T   7.74T    78.5M   26.6T   9.84T   9.93T

Статистика блоков после начального заполнения первого дня:

zdb -L -b tm_small

Traversing all blocks ...

10.1T completed (2399MB/s) estimated time remaining: 4294617589hr 00min 4294967252sec
        bp count:       103252048
        ganged count:           0
        bp logical:    29739547317760      avg: 288028
        bp physical:   10967514414592      avg: 106220     compression:   2.71
        bp allocated:  11117812854784      avg: 107676     compression:   2.67
        bp deduped:    2427436392448    ref>1: 7569740   deduplication:   1.22
        SPA allocated: 8690376462336     used: 37.19%

        additional, non-pointer bps of type 0:   11884845
        Dittoed blocks on same vdev: 7125171

Статистика после заполнения 33-го дня (по сравнению с первым вариантом: дедупликация меньше и сжатие больше - места на 3% меньше, фрагментация значительно лучше):

df -i /time_machine
Filesystem          Inodes    IUsed       IFree IUse% Mounted on
tm_small       22709829244 79029191 22630800053    1% /time_machine

df -B MB /time_machine
Filesystem     1MB-blocks       Used  Available Use% Mounted on
tm_small       23801210MB 12214241MB 11586970MB  52% /time_machine

zpool list -v
NAME   SIZE  ALLOC   FREE  EXPANDSZ   FRAG    CAP  DEDUP  HEALTH  ALTROOT
tm_small  21.2T  9.96T  11.3T         -    38%    46%  1.28x  ONLINE  -
  scsi-3600605b008ca05c01fc0c51340366923  21.2T  9.96T  11.3T         -    38%    46%
cache      -      -      -         -      -      -
  l2arc   300G   200G  99.7G         -     0%    66%

zfs list tm_small -o compress,compressratio,refcompressratio,usedbychildren,usedbydataset,usedbysnapshots
COMPRESS  RATIO  REFRATIO  USEDCHILD  USEDDS  USEDSNAP
  gzip-8  2.95x     2.79x      23.3G   11.1T     1.63T

zfs list
NAME       USED  AVAIL  REFER  MOUNTPOINT
tm_small  12.8T  10.5T  11.1T  /time_machine

zfs list -t snapshot|head -4;zfs list -t snapshot |tail -4
NAME                USED  AVAIL  REFER  MOUNTPOINT
tm_small@20140801  15.1G      -  9.98T  -
tm_small@20140802  3.15G      -  10.5T  -
tm_small@20140803  2.24G      -  10.6T  -
tm_small@20140831   164M      -  11.1T  -
tm_small@20140901  2.70G      -  11.1T  -
tm_small@20140902  19.4G      -  11.1T  -
tm_small@20140903  37.2M      -  11.1T  -

Статистика дедупликации после заполнения 33-го дня:

zpool status -D

 dedup: DDT entries 43561002, size 440 on disk, 142 in core

bucket              allocated                       referenced
______   ______________________________   ______________________________
refcnt   blocks   LSIZE   PSIZE   DSIZE   blocks   LSIZE   PSIZE   DSIZE
------   ------   -----   -----   -----   ------   -----   -----   -----
     1    32.8M   21.5T   8.63T   8.65T    32.8M   21.5T   8.63T   8.65T
     2    6.26M   3.47T   1.04T   1.04T    13.8M   7.61T   2.25T   2.26T
     4    1.62M    663G    158G    160G    7.99M   3.09T    742G    750G
     8     544K    136G   26.7G   27.4G    5.44M   1.36T    275G    282G
    16     206K   50.8G   9.77G   10.0G    4.32M   1.07T    212G    218G
    32    69.9K   13.3G   2.13G   2.23G    2.94M    562G   89.6G   93.9G
    64    31.7K   3.22G    578M    623M    2.64M    261G   46.5G   50.3G
   128    16.2K   1.07G    273M    295M    2.85M    185G   46.1G   50.0G
   256    10.2K    838M    435M    450M    3.54M    288G    156G    161G
   512    5.76K    238M   75.0M   82.5M    3.84M    157G   46.3G   51.4G
    1K    1.22K    125M   34.5M   36.4M    1.62M    162G   42.7G   45.2G
    2K      317   49.0M   20.4M   21.0M     892K    161G   75.7G   77.3G
    4K      282   18.6M    383K   1.16M    1.70M    110G   2.08G   7.03G
    8K       83   2.21M    134K    332K     905K   27.9G   1.45G   3.53G
   16K       32   12.0M   71.5K    128K     678K    265G   1.49G   2.65G
   32K       30   7.04M     56K    120K    1.26M    300G   2.47G   5.04G
   64K        7     77K   17.5K     28K     641K   8.68G   1.65G   2.50G
  128K        6   1.01M     10K     24K    1.03M    234G   1.78G   4.12G
  256K        3   1.50K   1.50K     12K    1.17M    601M    601M   4.69G
  512K        2      1K      1K      8K    1.19M    608M    608M   4.75G
    2M        1     512     512      4K    2.87M   1.43G   1.43G   11.5G
 Total    41.5M   25.8T   9.86T   9.88T    94.1M   37.3T   12.6T   12.7T

Статистика блоков после заполнения 33-го дня:

zdb -L -b tm_small

Traversing all blocks ...

12.8T completed (2008MB/s) estimated time remaining: 46981hr 05min 41sec        4294967256sec
        bp count:       121664603
        ganged count:           0
        bp logical:    41122740267008      avg: 338000
        bp physical:   13873447785984      avg: 114030     compression:   2.96
        bp allocated:  14041409785856      avg: 115410     compression:   2.93
        bp deduped:    3083509776384    ref>1: 9173591   deduplication:   1.22
        SPA allocated: 10957900009472     used: 46.90%

        additional, non-pointer bps of type 0:   12900459
        Dittoed blocks on same vdev: 8499054

Статистика после заполнения 105-го дня (фрагментация свободного места ещё терпимая, коэффициент сжатия поражает):

df -i /time_machine
Filesystem          Inodes    IUsed       IFree IUse% Mounted on
tm_small       17950274179 83943603 17866330576    1% /time_machine

df -B MB /time_machine
Filesystem     1MB-blocks       Used  Available Use% Mounted on
tm_small       22458963MB 13311402MB 9147562MB  60% /time_machine

zpool list -v
NAME   SIZE  ALLOC   FREE  EXPANDSZ   FRAG    CAP  DEDUP  HEALTH  ALTROOT
tm_small  21.2T  12.2T  9.09T         -    47%    57%  1.28x  ONLINE  -
  scsi-3600605b008ca05c01fc0c51340366923  21.2T  12.2T  9.09T         -    47%    57%
cache      -      -      -         -      -      -
  l2arc   300G   202G  97.9G         -     0%    67%

zfs list tm_small -o compress,compressratio,refcompressratio,usedbychildren,usedbydataset,usedbysnapshots
COMPRESS  RATIO  REFRATIO  USEDCHILD  USEDDS  USEDSNAP
  gzip-8  3.10x     2.81x      33.1G   12.1T     3.47T

zfs list
NAME       USED  AVAIL  REFER  MOUNTPOINT
tm_small  15.6T  8.32T  12.1T  /time_machine

Тестирование чтения привычным tarnull_all_common.sh базового снимка в момент 120 снимка:

1 поток - 28865330151424 bytes (29 TB) copied, 100863 s, 286 MB/s
2 потока - 28865330151424 bytes (29 TB) copied, 70503.8 s, 409 MB/s
4 потока - 28865330151424 bytes (29 TB) copied, 52014.5 s, 555 MB/s
10 потоков - 28865330151424 bytes (29 TB) copied, 46041.1 s, 627 MB/s
20 потоков - 28865330151424 bytes (29 TB) copied, 47943.1 s, 602 MB/s
40 потоков - 28865330151424 bytes (29 TB) copied, 48650.5 s, 593 MB/s

Тестирование чтения привычным tarnull_all_common.sh снимка 120 (20141130):

10 потоков - 35880243822592 bytes (36 TB) copied, 53898.6 s, 666 MB/s
20 потоков - 8431927820288 bytes (8.4 TB) copied, 12029.7 s, 701 MB/s

Передача накопленного (gzip-1 для скорости - 1.23 TB/час - 342 MB/s, постепенно снижается до 300 MB/s):

# осторожно с памятью!
zfs set primarycache=metadata tm_small
zfs set secondarycache=metadata tm_small
zpool remove tm_small /dev/system/l2arc

zpool create -f -m /tm_tiny -o ashift=12 \
-d -o feature@async_destroy=enabled -o feature@empty_bpobj=enabled -o feature@lz4_compress=enabled -o feature@spacemap_histogram=enabled -o feature@extensible_dataset=enabled -o feature@bookmarks=enabled -o feature@enabled_txg=enabled -o feature@embedded_data=enabled -o feature@large_blocks=enabled \
-O compression=gzip-1 \
-O atime=off -O relatime=off \
-O acltype=posixacl -O xattr=sa \
-O dedup=on \
-O redundant_metadata=most \
-O sync=disabled -O logbias=throughput \
-O snapdir=visible \
-O recordsize=1048576 \
-O secondarycache=metadata \
tm_tiny wwn-1 wwn-2 cache /dev/system/l2arc

zfs set primarycache=metadata tm_tiny
zfs set secondarycache=metadata tm_tiny

zfs send -R -Le -v tm_small@20140815 | zfs receive -vd -F tm_tiny

send from @ to tm_small@20140801 estimated size is 26.6T
send from @20140801 to tm_small@20140802 estimated size is 2.22T
...
send from @20140814 to tm_small@20140815 estimated size is 368G
total estimated size is 33.3T

receiving full stream of tm_small@20140801 into tm_tiny@20140801
TIME        SENT   SNAPSHOT
22:42:31    614K   tm_small@20140801 # исходных до сжатия?
...

zpool list -v

NAME   SIZE  ALLOC   FREE  EXPANDSZ   FRAG    CAP  DEDUP  HEALTH  ALTROOT
tm_small  21.2T  13.2T  8.04T         -    51%    62%  1.28x  ONLINE  -
  scsi-3600605b008ca05c01fc0c51340366923  21.2T  13.2T  8.04T         -    51%    62%
tm_tiny  9.88T  4.85T  5.03T         -    43%    49%  1.33x  ONLINE  -
  wwn-0x600605b008ca0500ff00978d08a70a6a  4.91T  2.42T  2.49T         -    42%    49%
  wwn-0x600605b008ca052020111fe9d78370c6  4.97T  2.43T  2.54T         -    44%    48%
cache      -      -      -         -      -      -
  l2arc   300G  6.09G   294G         -     0%     2%

zfs list tm_small tm_tiny -o name,compress,compressratio,refcompressratio,usedbychildren,usedbydataset,usedbysnapshots

NAME      COMPRESS  RATIO  REFRATIO  USEDCHILD  USEDDS  USEDSNAP
tm_small    gzip-8  3.12x     2.83x      37.5G   11.8T     5.10T
tm_tiny     gzip-1  2.40x     1.00x      6.46T     96K         0

zfs list

NAME       USED  AVAIL  REFER  MOUNTPOINT
tm_small  16.9T  7.26T  11.8T  /time_machine
tm_tiny   6.46T  4.67T    96K  /tm_tiny

В процессе тестирования попытался подключить ("zpool add -o ashift=12 tm_tiny dm-name-mpaths209") старенький iSCSI SAN HP StorageWorks MSA 2012i (при сжатии lz4 не хватило места), получил завал по записи и (igb - драйвер сетевой карты):

Jan 25 03:27:03 x142 kernel: BUG: Bad page state in process swapper/4  pfn:117940c
Jan 25 03:27:03 x142 kernel: page:ffffea0045e50300 count:0 mapcount:-1 mapping:          (null) index:0x0
Jan 25 03:27:03 x142 kernel: page flags: 0x6fffff00008000(tail)
Jan 25 03:27:03 x142 kernel: page dumped because: nonzero mapcount
Jan 25 03:27:03 x142 kernel: Call Trace:
Jan 25 03:27:03 x142 kernel:   [] dump_stack+0x19/0x1b
Jan 25 03:27:03 x142 kernel: [] bad_page.part.59+0xdf/0xfc
Jan 25 03:27:03 x142 kernel: [] free_pages_prepare+0x16d/0x190
Jan 25 03:27:03 x142 kernel: [] free_compound_page+0x29/0x40
Jan 25 03:27:03 x142 kernel: [] __put_compound_page+0x1f/0x30
Jan 25 03:27:03 x142 kernel: [] put_compound_page+0x145/0x170 
...
Jan 25 03:32:15 x142 kernel: BUG: Bad page state in process z_rd_int_6  pfn:faca0c
Jan 25 03:32:15 x142 kernel: page:ffffea003eb28300 count:0 mapcount:-1 mapping:          (null) index:0x0
Jan 25 03:32:15 x142 kernel: page flags: 0x6fffff00008000(tail)
Jan 25 03:32:15 x142 kernel: page dumped because: nonzero mapcount
Jan 25 03:32:15 x142 kernel:   [] dump_stack+0x19/0x1b
Jan 25 03:32:15 x142 kernel: [] bad_page.part.59+0xdf/0xfc
Jan 25 03:32:15 x142 kernel: [] free_pages_prepare+0x16d/0x190
Jan 25 03:32:15 x142 kernel: [] free_compound_page+0x29/0x40
Jan 25 03:32:15 x142 kernel: [] __put_compound_page+0x1f/0x30
Jan 25 03:32:15 x142 kernel: [] put_compound_page+0x145/0x170
Jan 25 03:32:15 x142 kernel: [] put_page+0x2c/0x40
Jan 25 03:32:15 x142 kernel: [] skb_release_data+0x88/0x110
Jan 25 03:32:15 x142 kernel: [] skb_release_all+0x24/0x30
Jan 25 03:32:15 x142 kernel: [] consume_skb+0x2c/0x80
Jan 25 03:32:15 x142 kernel: [] __dev_kfree_skb_any+0x3d/0x50
Jan 25 03:32:15 x142 kernel: [] igb_poll+0xe6/0x770 [igb]

При этом счётчик переданных байт застыл на 4.33TB, mpaths209 имеет 100% загрузки на случайной записи, "zpool destroy tm_tiny" не остановил случайную запись.

Оказалось, что приёмник нельзя трогать до окончания передачи. Запустил заново с gzip-2 (примерно 1 ТБ/час или 293 МБ/сек).

zfs send -R -Le -v tm_small@20140811 | zfs receive -vd -F tm_tiny
send from @ to tm_small@20140801 estimated size is 26.6T
send from @20140801 to tm_small@20140802 estimated size is 2.22T
send from @20140802 to tm_small@20140803 estimated size is 176G
send from @20140803 to tm_small@20140804 estimated size is 72.9G
send from @20140804 to tm_small@20140805 estimated size is 742G
send from @20140805 to tm_small@20140806 estimated size is 295G
send from @20140806 to tm_small@20140807 estimated size is 204G
send from @20140807 to tm_small@20140808 estimated size is 387G
send from @20140808 to tm_small@20140809 estimated size is 920G
send from @20140809 to tm_small@20140810 estimated size is 47.3G
send from @20140810 to tm_small@20140811 estimated size is 50.6G
total estimated size is 31.7T
...
zfs send -Le -v  -I tm_small@20140811 tm_small@20140813 | zfs receive -vd -F tm_tiny
send from @20140811 to tm_small@20140812 estimated size is 238G
send from @20140812 to tm_small@20140813 estimated size is 725G
total estimated size is 963G
would receive incremental stream of tm_small@20140812 into tm_tiny@20140812
TIME        SENT   SNAPSHOT
16:51:12   1013M   tm_small@20140812
...
received 725GB stream in 2971 seconds (250MB/sec)

zpool list -v
NAME   SIZE  ALLOC   FREE  EXPANDSZ   FRAG    CAP  DEDUP  HEALTH  ALTROOT
tm_small  21.2T  13.2T  8.04T         -    51%    62%  1.28x  ONLINE  -
  scsi-3600605b008ca05c01fc0c51340366923  21.2T  13.2T  8.04T         -    51%    62%
tm_tiny  9.88T  9.43T   456G         -    81%    95%  1.28x  ONLINE  -
  wwn-0x600605b008ca0500ff00978d08a70a6a  4.91T  4.69T   220G         -    83%    95%
  wwn-0x600605b008ca052020111fe9d78370c6  4.97T  4.74T   236G         -    80%    95%
cache      -      -      -         -      -      -
  l2arc   300G  8.73G   291G         -     0%     2%

zfs list tm_small tm_tiny -o name,used,avail,refer,compress,compressratio,refcompressratio,usedbychildren,usedbydataset,usedbysnapshots
NAME       USED  AVAIL  REFER  COMPRESS  RATIO  REFRATIO  USEDCHILD  USEDDS  USEDSNAP
tm_small  16.9T  7.65T  11.8T    gzip-8  3.12x     2.83x      37.5G   11.8T     5.10T
tm_tiny   12.1T   255G  11.3T    gzip-2  2.72x     2.67x      20.2G   11.3T      808G

zfs send -Le -v  -I tm_small@20140813 tm_small@20140814 | zfs receive  -vd -F tm_tiny
...
received 306GB stream in 1667 seconds (188MB/sec)

zfs send -Le -v  -I tm_small@20140814 tm_small@20140815 | zfs receive  -vd -F tm_tiny
send from @20140814 to tm_small@20140815 estimated size is 368G
total estimated size is 368G
receiving incremental stream of tm_small@20140815 into tm_tiny@20140815
...
received 368GB stream in 1277 seconds (295MB/sec)

zfs send -Le -v  -I tm_small@20140815 tm_small@20140816 | zfs receive  -vd -F tm_tiny
send from @20140815 to tm_small@20140816 estimated size is 560G
total estimated size is 560G
receiving incremental stream of tm_small@20140816 into tm_tiny@20140816
...
21:48:17    492G   tm_small@20140816
cannot receive incremental stream: out of space
warning: cannot send 'tm_small@20140816': Broken pipe

автоматический откат на последний успешный снимок

Попробовал писать в переполненный пул

NAME   SIZE  ALLOC   FREE  EXPANDSZ   FRAG    CAP  DEDUP  HEALTH  ALTROOT
tm_tiny  9.88T  9.56T   326G         -    71%    96%  1.28x  ONLINE  -
  wwn-0x600605b008ca0500ff00978d08a70a6a  4.91T  4.75T   157G         -    73%    96%
  wwn-0x600605b008ca052020111fe9d78370c6  4.97T  4.80T   170G         -    70%    96%

NAME       USED  AVAIL  REFER  COMPRESS  RATIO  REFRATIO  USEDCHILD  USEDDS  USEDSNAP
tm_tiny   12.3T      0  11.4T    gzip-2  2.72x     2.68x      42.3G   11.4T      799G

dd if=/dev/sda bs=1k of=/tm_tiny/share4h/test
^C

не пишет и не снимается

ls -ld /tm_tiny/share4h
^C^C

kill -9 не помогает

zfs umount -f /tm_tiny
umount: /tm_tiny: target is busy.

отвисла, когда прекратил активную работу с другим пулом

На одном из тестовых серверов (на котором меньше ОП - 64ГиБ, но больше пул - 64ТБ) проявилась проблема - жёсткая нехватка памяти (80% в cache), arc_reclaim потребляет 100% CPU, но не успевает освободить (фрагментированность?), попытки понять и попбороть:

давно установлено primarycache=metadata (и secondarycache=metadata)
zfs_arc_max установлен в 40000000000 (на втором сервере доля аналогична, но проблем нет)
/proc/sys/vm/zone_reclaim_mode установлен в 0
Может L2ARC Header не поместился в ARC? Нет, он всего 725.30 MiB
сброс кеша страниц ("echo 3 > /proc/sys/vm/drop_caches") помогает не всегда и ненадолго (пробовал ставить ежечасно в cron); разработчик не советует посылать 2 или 3 - будут проблемы, а без них освобождается недостаточно
остановил механизм слияния одинаковых страниц памяти ("echo 0 > /sys/kernel/mm/ksm/run") - не помогло

подумал, что rsync заполняет страничный кеш и испробовал бурно рекламируемый метод борьбы с этим с помощью cgroup (на втором сервере):

cgcreate -g memory:backup
echo 4G > /sys/fs/cgroup/memory/backup/memory.limit_in_bytes # /sys/fs/cgroup/memory/backup/memory.memsw.limit_in_bytes
                                                                # /sys/fs/cgroup/memory/backup/memory.kmem.limit_in_bytes
echo номер-порождающего-процесса > /sys/fs/cgroup/memory/backup/tasks

cache по-прежнему 55ГБ, а процессы из backup ни разу не упёрлись в 4ГБ

cat /sys/fs/cgroup/memory/backup/memory.max_usage_in_bytes
3098968064 

Опробовал методику на tarnull_common_all.sh - всё моментально умерло.
Вывод - rsync в отличие от tar не раздувает системный страничный кеш при использовании zfs.

попробовал сменить алгоритм чистки памяти ("echo 3 > /sys/module/spl/parameters/spl_kmem_cache_expire") - не помогло, убрал
уменьшаю размер ARC: "echo 30000000000 > /sys/module/zfs/parameters/zfs_arc_max", arc_reclaim трудится неустанно уменьшая текущий размер ARC, но кто-то раздувает его бещё быстрее (интересно чем? по сети прибывает 100 МБ/сек, с дисков - тоже 100МБ/сек, но сжатых)
отключил предварительное чтение полностью ("echo 1 > /sys/module/zfs/parameters/zfs_prefetch_disable"), через некоторое (не малое) время размер кеша страниц уменьшился, появилась свободная память, проблема не проявляется уже 6 часов, скорость заполнения приемлемая - проблема вернулась
обнаружил, что /sys/module/zfs/parameters/zfs_arc_meta_limit больше /sys/module/zfs/parameters/zfs_arc_max - уравнял, не помогло; несмотря на борьбу arc_reclaim за место текущий размер ARC лезет выше целевого (максимального)
```
ARC Size:                               122.06% 34.10   GiB
        Target Size: (Adaptive)         100.00% 27.94   GiB
        Min Size (Hard Limit):          0.11%   32.00   MiB
        Max Size (High Water):          894:1   27.94   GiB 
```
агресивнее чистим метаданные (по умолчанию - 10000): "echo 50000 > /sys/module/zfs/parameters/zfs_arc_meta_prune"; top замёрз :(, но проблема осталась
отключить prefetch vdev? (по умолчанию - 16k): "echo 131072 > /sys/module/zfs/parameters/zfs_vdev_cache_max"; не помогло - вернул 16384
сравнил настройки серверов: на проблемном сервере - atime=on (а зачем это на архивном сервере); поменял; не помогло
затормозить рост ARC: "echo 5 > /sys/module/zfs/parameters/zfs_arc_grow_retry"; стало лучше
сброс кеша страниц ("echo 3 > /proc/sys/vm/drop_caches") каждые 20 минут (вся память - 64 ГБ - съедается за 7 минут)
уменьшил zfs_arc_meta_limit и zfs_arc_max до 25000000000 - arc_reclaim трудится, размер ARC перехлёстывает за максимум, но резерв памяти позволяет успеть восстановиться
увеличил zfs_arc_meta_prune до 100000, остановил сброс кеша страниц в cron, включил обратно предварительное чтение; так оно живёт, но много усилий расходуется напрасно
ой! на проблемном сервере ядро 3.10.0-327.28.3.el7 вместо 3.10.0-327.36.3.el7; обновил; нехватка памяти
уменьшил zfs_arc_meta_limit и zfs_arc_max до 25000000000- arc_reclaim трудится, размер ARC перехлёстывает за максимум, но резерв памяти (16 ГБ!) позволяет успеть восстановиться
итого: памяти надо много - под рабочее множество zfs (primarycache, secondarycache, zfs_arc_max, zfs_arc_meta_limit; если выделить мало, то работает медленно), резерв свободной памяти (используется при приёме потока, размер зависит от мощности потока, можно управлять агрессивностью сдувания пузыря - zfs_arc_meta_prune, zfs_arc_grow_retry - и ограничить раздувание (zfs_prefetch_disable); этот резерв потребляется также подсистемой vfs ядра Linux - можно сбрасывать /proc/sys/vm/drop_caches, но сбрасываются и полезные данные)

В порыве борьбы за память: metadata в primarycache и secondarycache. Добавил ещё 1 виртуальный диск.

Статистика после заполнения 215-го дня:

df -i /time_machine
Filesystem          Inodes    IUsed       IFree IUse% Mounted on
tm_small       17584992388 106959602 17478032786    1% /time_machine

df -B MB /time_machine
Filesystem     1MB-blocks       Used  Available Use% Mounted on
tm_small       22770856MB 13822104MB 8948753MB  61% /time_machine

zpool list -v
tm_small  26.2T  17.1T  9.15T         -    52%    65%  1.36x  ONLINE  -
  scsi-3600605b008ca05c01fc0c51340366923  21.2T  17.0T  4.22T         -    65%    80%
  wwn-0x600605b008ca052020111fe9d78370c6  4.97T  37.2G  4.93T         -     0%     0%
cache      -      -      -         -      -      -
  l2arc   300G  14.2G   286G         -     0%     4%

zfs list tm_small -o name,used,avail,refer,compress,compressratio,refcompressratio,usedbychildren,usedbydataset,usedbysnapshots
NAME       USED  AVAIL  REFER  COMPRESS  RATIO  REFRATIO  USEDCHILD  USEDDS  USEDSNAP
tm_small  23.2T  8.14T  12.6T    gzip-8  3.19x     2.82x      51.7G   12.6T     10.6T

Статистика после заполнения 301-го дня:

df -i /time_machine
Filesystem          Inodes    IUsed       IFree IUse% Mounted on
tm_small       20124719802 114330347 20010389455    1% /time_machine

df -B MB /time_machine
Filesystem     1MB-blocks       Used  Available Use% Mounted on
tm_small       23955499MB 13710181MB 10245319MB  58% /time_machine

zpool list -v
tm_small  30.3T  19.8T  10.5T         -    54%    65%  1.37x  ONLINE  -
  scsi-3600605b008ca05c01fc0c51340366923  21.2T  18.0T  3.22T         -    69%    84%
  wwn-0x600605b008ca052020111fe9d78370c6  4.97T  1.16T  3.81T         -    25%    23%
  wwn-0x600605b008ca0500202630e6fda1c4eb  4.06T   607G  3.47T         -    13%    14%
cache      -      -      -         -      -      -
  l2arc   300G  19.2G   281G         -     0%     6%

zfs list tm_small -o name,used,avail,refer,compress,compressratio,refcompressratio,usedbychildren,usedbydataset,usedbysnapshots
NAME       USED  AVAIL  REFER  COMPRESS  RATIO  REFRATIO  USEDCHILD  USEDDS  USEDSNAP
tm_small  27.2T  9.32T  12.5T    gzip-8  3.26x     2.70x      63.3G   12.5T     14.6T

Статистика после заполнения 361-го дня:

df -i /time_machine
Filesystem          Inodes    IUsed       IFree IUse% Mounted on
tm_small       15406945432 118602991 15288342441    1% /time_machine

df -B MB /time_machine
Filesystem     1MB-blocks       Used  Available Use% Mounted on
tm_small       22466955MB 14639324MB 7827631MB  66% /time_machine

zpool list -v
tm_small  30.3T  22.0T  8.32T         -    60%    72%  1.37x  ONLINE  -
  scsi-3600605b008ca05c01fc0c51340366923  21.2T  18.7T  2.52T         -    71%    88%
  wwn-0x600605b008ca052020111fe9d78370c6  4.97T  1.92T  3.05T         -    41%    38%
  wwn-0x600605b008ca0500202630e6fda1c4eb  4.06T  1.31T  2.75T         -    30%    32%
cache      -      -      -         -      -      -
  l2arc   300G  22.1G   278G         -     0%     7%

zfs list tm_small -o name,used,avail,refer,compress,compressratio,refcompressratio,usedbychildren,usedbydataset,usedbysnapshots
NAME       USED  AVAIL  REFER  COMPRESS  RATIO  REFRATIO  USEDCHILD  USEDDS  USEDSNAP
tm_small  30.1T  7.12T  13.3T    gzip-8  3.27x     2.69x      74.0G   13.3T     16.7T

Статистика после заполнения 518-го дня (место кончилось):

zpool list -v
NAME   SIZE  ALLOC   FREE  EXPANDSZ   FRAG    CAP  DEDUP  HEALTH  ALTROOT
tm_small  30.3T  28.9T  1.35T         -    59%    95%  1.37x  ONLINE  -
  scsi-3600605b008ca05c01fc0c51340366923  21.2T  20.8T   445G         -    56%    97%
  wwn-0x600605b008ca052020111fe9d78370c6  4.97T  4.44T   538G         -    69%    89%
  wwn-0x600605b008ca0500202630e6fda1c4eb  4.06T  3.67T   405G         -    67%    90%
cache      -      -      -         -      -      -
  l2arc   300G  26.7G   273G         -     0%     8%

zfs list tm_small -o name,used,avail,refer,compress,compressratio,refcompressratio,usedbychildren,usedbydataset,usedbysnapshots
NAME       USED  AVAIL  REFER  COMPRESS  RATIO  REFRATIO  USEDCHILD  USEDDS  USEDSNAP
tm_small  39.7T  74.5G  13.9T    gzip-8  3.33x     2.75x      86.1G   13.9T     25.7T

Статистика блоков после заполнения 518-го дня (7 часов):

zdb -L -bb tm_small
        bp count:       403056102
        ganged count:           0
        bp logical:    143683750113792      avg: 356485
        bp physical:   42932481053696      avg: 106517     compression:   3.35
        bp allocated:  43624229873152      avg: 108233     compression:   3.29
        bp deduped:    11819060480512    ref>1: 32743371   deduplication:   1.27
        SPA allocated: 31805169392640     used: 95.53%

        additional, non-pointer bps of type 0:   34730385
        Dittoed blocks on same vdev: 15595207

Blocks  LSIZE   PSIZE   ASIZE     avg    comp   %Total  Type
  284K  34.7G   8.09G   25.1G   90.5K    4.29     0.06  bpobj
 17.4M   278G   56.3G    137G   7.92K    4.94     0.34  DMU dnode
  317M   130T   39.0T   39.4T    127K    3.34    99.26  ZFS plain file
 43.4M  45.8G   12.3G   77.3G   1.78K    3.74     0.19  ZFS directory
 5.45M  21.8G   14.2G   57.8G   10.6K    1.54     0.14  DDT ZAP algorithm

Статистика дедупликации после заполнения 518-го дня (быстро)

zdb -L -DD tm_small
DDT-sha256-zap-duplicate: 32743371 entries, size 414 on disk, 150 in core
DDT-sha256-zap-unique: 110802556 entries, size 437 on disk, 160 in core

DDT histogram (aggregated over all DDTs):

bucket              allocated                       referenced
______   ______________________________   ______________________________
refcnt   blocks   LSIZE   PSIZE   DSIZE   blocks   LSIZE   PSIZE   DSIZE
------   ------   -----   -----   -----   ------   -----   -----   -----
     1     106M   71.3T   23.5T   23.6T     106M   71.3T   23.5T   23.6T
     2    23.6M   13.2T   4.27T   4.30T    52.0M   28.8T   9.31T   9.37T
     4    4.97M   2.17T    602G    608G    24.3M   10.4T   2.78T   2.81T
     8    1.51M    508G    120G    122G    15.3M   4.99T   1.18T   1.21T
    16     640K    140G   28.9G   29.9G    13.3M   2.94T    625G    646G
    32     249K   60.5G   9.48G   9.90G    10.4M   2.55T    402G    420G
    64     101K   17.1G   2.07G   2.21G    8.75M   1.43T    176G    189G
   128    63.5K   10.7G   1020M   1.08G    11.0M   1.90T    186G    200G
   256    48.2K   4.20G    824M    881M    17.0M   1.47T    308G    329G
   512    17.4K   2.65G    354M    388M    12.8M   1.82T    252G    277G
    1K    7.69K    468M    112M    124M    10.1M    609G    149G    166G
    2K    1.56K    167M   36.8M   40.3M    4.12M    489G    120G    129G
    4K      353   7.22M   1.67M   2.57M    1.79M   40.9G   8.43G   13.1G
    8K      401   41.9M    590K   1.61M    4.59M    509G   6.45G   18.7G
   16K      128   14.3M    216K    506K    2.73M    324G   4.56G   10.8G
   32K       57   9.10M   72.5K    228K    2.49M    457G   3.27G   9.97G
   64K       21   41.5K     29K     84K    1.69M   3.20G   2.27G   6.75G
  128K       11    112K     16K     44K    1.92M   19.1G   2.96G   7.70G
  256K        5   1.00M      6K     20K    1.75M    259G   1.75G   6.98G
  512K        4      2K      2K     16K    2.78M   1.39G   1.39G   11.1G
    1M        2      1K      1K      8K    2.69M   1.35G   1.35G   10.8G
    4M        1     512     512      4K    4.96M   2.48G   2.48G   19.8G
 Total     137M   87.4T   28.5T   28.6T     312M    130T   38.9T   39.4T

dedup = 1.38, compress = 3.34, copies = 1.01, dedup * compress / copies = 4.55

Тестирование чтения привычным tarnull_all_common.sh базового снимка в момент 518 снимка (l2arc_noprefetch=1, zfs_prefetch_disable=0, primarycache=metadata, secondarycache=metadata - для чтения это оказалось плохо):

2 потока - 19562925916160 bytes (20 TB) copied, 139549 s, 140 MB/s
4 потока - 28865330151424 bytes (29 TB) copied, 121320 s, 238 MB/s
6 потоков - 28865330151424 bytes (29 TB) copied, 92893.1 s, 311 MB/s
8 потоков - 28865330151424 bytes (29 TB) copied, 78370.4 s, 368 MB/s
10 потоков - 28865330151424 bytes (29 TB) copied, 69417.1 s, 416 MB/s
12 потоков - 28865330151424 bytes (29 TB) copied, 64111 s, 450 MB/s
16 потоков - 28865330151424 bytes (29 TB) copied, 63357.1 s, 456 MB/s
24 потока - 28865330151424 bytes (29 TB) copied, 68569.3 s, 421 MB/s
32 потока - 28865330151424 bytes (29 TB) copied, 75308.7 s, 383 MB/s

Тестирование чтения привычным tarnull_all_common.sh базового снимка в момент 518 снимка (l2arc_noprefetch=0, zfs_dedup_prefetch=1, primarycache=all, secondarycache=all)

1 поток - 28865330151424 bytes (29 TB) copied, 128778 s, 224 MB/s
2 потока - 28865330151424 bytes (29 TB) copied, 74665.2 s, 387 MB/s
4 потока - 28865330151424 bytes (29 TB) copied, 51505.5 s, 560 MB/s
6 потоков - 28865330151424 bytes (29 TB) copied, 44443.7 s, 649 MB/s
8 потоков - 28865330151424 bytes (29 TB) copied, 44240.3 s, 652 MB/s
10 потоков - 28865330151424 bytes (29 TB) copied, 44583.1 s, 647 MB/s
12 потоков - 28865330151424 bytes (29 TB) copied, 49712.1 s, 581 MB/s
16 потоков - 28865330151424 bytes (29 TB) copied, 46482.6 s, 621 MB/s
24 потока - 28865330151424 bytes (29 TB) copied, 45093.3 s, 640 MB/s
32 потока - 28865330151424 bytes (29 TB) copied, 49376.8 s, 585 MB/s

Тестирование чтения привычным tarnull_all_common.sh последнего снимка (20151231) (l2arc_noprefetch=0, zfs_dedup_prefetch=1, primarycache=all, secondarycache=all, задействованы 3 vdev)

1 поток - 40970543431680 bytes (41 TB) copied, 196639 s, 208 MB/s
2 потока - 40970543431680 bytes (41 TB) copied, 117303 s, 349 MB/s
4 потока - 40970543431680 bytes (41 TB) copied, 77596.1 s, 528 MB/s
6 потоков - 40970543431680 bytes (41 TB) copied, 65649.2 s, 624 MB/s
8 потоков - 40970543431680 bytes (41 TB) copied, 62714.8 s, 653 MB/s
10 потоков - 40970543431680 bytes (41 TB) copied, 64721.1 s, 633 MB/s
12 потоков - 40970543431680 bytes (41 TB) copied, 64765.2 s, 633 MB/s
16 потоков - 40970543431680 bytes (41 TB) copied, 67407.3 s, 608 MB/s
24 потока - 40970543431680 bytes (41 TB) copied, 68070.1 s, 602 MB/s
32 потока - 40970543431680 bytes (41 TB) copied, 71740.1 s, 571 MB/s

Итог тестирования компактности: zfs с дедупликацией настроенный со сжатием gzip-8, без копирования файлов размером более 100ГБ, rsync в режиме --inplace, с 1 августа 2014 по 31 декабря 2015 (518 день)

первый день - 8690376462336
всего - 31805169692160
в день - 44623152953 (в 2.31 раза меньше btrfs; сравнение не совсем честное, т.к. изменения идут нарастающим объёмом и теперь не копируются файлы размером более 100 ГБ)

Передача по сети (предусмотреть - screen, iptables):

на приёмном конце:

ncat -l номер-порта | zfs receive -vd -F tm_tiny
receiving full stream of tm_small@20140801 into tm_tiny@20140801
received 26.7TB stream in 541046 seconds (51.7MB/sec)
receiving incremental stream of tm_small@20140802 into tm_tiny@20140802
received 2.22TB stream in 169347 seconds (13.8MB/sec)
receiving incremental stream of tm_small@20140803 into tm_tiny@20140803
received 176GB stream in 18100 seconds (9.97MB/sec)

на передающем конце:

zfs send -R -Le -v tm_small@20140803 | ncat имя-хоста номер-порта

проверка скорости чтения результата tarnull (Xyratex RS-1220-F4-5412E-DL-2, массив RAID-6 из 12 дисков SATA по 1ТБ, 7200 rpm; похоже, что несовместим с zfs - настроить не смог):
- 8 потоков - 28865330151424 bytes (29 TB) copied, 161070 s, 179 MB/s
- 10 потоков - 28865330151424 bytes (29 TB) copied, 163936 s, 176 MB/s
- 32 потока - 28694041067520 bytes (29 TB) copied, 180044 s, 159 MB/s

Измерение скорости send в /dev/null (разжимается перед передачей):

time zfs send -R -Le  tm_small@20151231 | dd bs=1024k > /dev/null # статистика zfs двоичная, dd - десятичная
send from @ to tm_small@20140801 estimated size is 26.6T
send from @20140801 to tm_small@20140802 estimated size is 2.22T
send from @20140802 to tm_small@20140803 estimated size is 176G
...
send from @20151230 to tm_small@20151231 estimated size is 163G
total estimated size is 130T

143709025174440 bytes (144 TB) copied, 139968 s, 1.0 GB/s

Измерение скорости send в /dev/null без разжимания (0.7.0-rc3, возврат на 0.6.9 прошёл без проблем)

time zfs send -R -Le -c tm_small@20151231 | dd bs=1024k > /dev/null # статистика zfs двоичная, dd - десятичная
full send of tm_small@20140801 estimated size is 9.86T
send from @20140801 to tm_small@20140802 estimated size is 590G
...
send from @20151230 to tm_small@20151231 estimated size is 33.9G
total estimated size is 39.0T

43369814706360 bytes (43 TB) copied, 92704.8 s, 468 MB/s

Реальная пересылка без разжимания:

# разведка
time zfs send -n -v -R -p -Le -c time_machine@20170326
full send of time_machine@20140901 estimated size is 11.1T
send from @20140901 to time_machine@20140902 estimated size is 49.0G
...
send from @20170325 to time_machine@20170326 estimated size is 12.7G
total estimated size is 82.0T

# оценка
time zfs send -R -p -Le -c time_machine@20170326 | dd bs=1024k > /dev/null # статистика zfs двоичная, dd - десятичная
670009514760 bytes (670 GB) copied, 1302.84 s, 514 MB/s

ncat -l порт | dd bs=1024k | zfs receive -vd -F time_machine
time zfs send -R -p -Le -c time_machine@20170326 | ncat хост порт

receiving incremental stream of time_machine@20170326 into time_machine@20170326
91080262204792 bytes (91 TB) copied, 371889 s, 245 MB/s

# накопившиеся за время пересылки остатки
zfs send -p  -Le -c -I time_machine@20170326  time_machine@20170331 | ncat хост порт

Сравнение сжатия на подмножестве share4x/[a-c]* 20160101-20160304 (~10% по файлам, объёму и времени):

gzip-1

    tm_tiny  dedupratio                  1.52x
    tm_tiny  allocated                   2297839255552
    tm_tiny  compressratio         3.69x
  zdb -L -bb tm_tiny
        bp count:        27461345
        ganged count:           0
        bp logical:    12836056087552      avg: 467422
        bp physical:   3460343874560      avg: 126007     compression:   3.71
        bp allocated:  3492625645568      avg: 127183     compression:   3.68
        bp deduped:    1195390554112    ref>1: 2330471   deduplication:   1.34
        SPA allocated: 2297235091456     used: 23.21%
  591K  9.24G   2.37G   4.73G   8.19K    3.91     0.15  DMU dnode
 22.3M  11.5T   3.12T   3.13T    144K    3.70    98.67  ZFS plain file
 2.72M  2.36G    958M   6.60G   2.43K    2.52     0.20  ZFS directory
  359K  1.40G   1.40G   4.21G   12.0K    1.00     0.13  DDT ZAP algorithm

gzip-2 ("--whole-file", без "--inplace"), -2.7%:

   tm_tiny  dedupratio                  1.52x
   tm_tiny  allocated                   2238066040832
   tm_tiny  compressratio         3.76x

  zdb -L -bb tm_tiny
        bp count:        27358848
        ganged count:           0
        bp logical:    12692608460288      avg: 463930
        bp physical:   3369596236800      avg: 123162     compression:   3.77
        bp allocated:  3402076622848      avg: 124350     compression:   3.73
        bp deduped:    1164010582016    ref>1: 2297326   deduplication:   1.34
        SPA allocated: 2238066040832     used: 22.46%

        additional, non-pointer bps of type 0:    2014185
        Dittoed blocks on same vdev: 1946556
Blocks  LSIZE   PSIZE   ASIZE     avg    comp   %Total  Type
  583K  9.11G   2.32G   4.65G   8.17K    3.92     0.15  DMU dnode
 22.3M  11.5T   3.06T   3.08T    141K    3.77    99.44  ZFS plain file
 2.78M  2.50G   1.00G   7.03G   2.53K    2.49     0.22  ZFS directory
  356K  1.39G   1.39G   4.17G   12.0K    1.00     0.13  DDT ZAP algorithm

gzip-3 ("--whole-file", без "--inplace"), -1.47%:

   tm_tiny  dedupratio                  1.52x                       -
   tm_tiny  allocated                   2205571149824               -
   tm_tiny  compressratio         3.82x                  -

  zdb -L -bb tm_tiny
        bp count:        27397056
        ganged count:           0
        bp logical:    12693392496640      avg: 463312
        bp physical:   3318542690304      avg: 121127     compression:   3.82
        bp allocated:  3351140884480      avg: 122317     compression:   3.79
        bp deduped:    1145675202560    ref>1: 2297343   deduplication:   1.34
        SPA allocated: 2205465681920     used: 22.13%

        additional, non-pointer bps of type 0:    2010967
        Dittoed blocks on same vdev: 1988016

Blocks  LSIZE   PSIZE   ASIZE     avg    comp   %Total  Type
  594K  9.29G   2.37G   4.75G   8.18K    3.91     0.15  DMU dnode
 22.3M  11.5T   3.01T   3.03T    139K    3.83    99.42  ZFS plain file
 2.81M  3.10G   1.19G   7.30G   2.60K    2.59     0.23  ZFS directory
  356K  1.39G   1.39G   4.17G   12.0K    1.00     0.13  DDT ZAP algorithm

gzip-4 ("--whole-file", без "--inplace"), -2.44%:

   tm_tiny  dedupratio     1.52x
   tm_tiny  allocated      2152938479616
   tm_tiny  compressratio  3.92x

zdb -L -bb tm_tiny
        bp count:        27395425
        ganged count:           0
        bp logical:    12693344324608      avg: 463338
        bp physical:   3232032728576      avg: 117977     compression:   3.93
        bp allocated:  3264629395456      avg: 119166     compression:   3.89
        bp deduped:    1111690915840    ref>1: 2297343   deduplication:   1.34
        SPA allocated: 2152938479616     used: 21.61%

        additional, non-pointer bps of type 0:    2010949
        Dittoed blocks on same vdev: 1986403

Blocks  LSIZE   PSIZE   ASIZE     avg    comp   %Total  Type
 10.6K  1.30G    383M   1.12G    109K    3.47     0.04  bpobj
  591K  9.24G   2.36G   4.72G   8.17K    3.91     0.16  DMU dnode
 22.3M  11.5T   2.93T   2.95T    135K    3.93    99.41  ZFS plain file
 2.81M  3.10G   1.19G   7.30G   2.60K    2.59     0.24  ZFS directory
  356K  1.39G   1.39G   4.17G   12.0K    1.00     0.14  DDT ZAP algorithm

gzip-5 ("--whole-file", без "--inplace"), -1.76%:

tm_tiny  dedupratio       1.51x
tm_tiny  allocated        2115582078976
tm_tiny  compressratio    3.99x

zdb -L -bb tm_tiny
        bp count:        27398580
        ganged count:           0
        bp logical:    12693376887808      avg: 463285
        bp physical:   3170244653568      avg: 115708     compression:   4.00
        bp allocated:  3202858401792      avg: 116898     compression:   3.96
        bp deduped:    1087276322816    ref>1: 2297343   deduplication:   1.34
        SPA allocated: 2115582078976     used: 21.23%

        additional, non-pointer bps of type 0:    2010922
        Dittoed blocks on same vdev: 1989585

Blocks  LSIZE   PSIZE   ASIZE     avg    comp   %Total  Type
 10.6K  1.30G    383M   1.12G    109K    3.47     0.04  bpobj
  593K  9.26G   2.37G   4.73G   8.17K    3.91     0.16  DMU dnode
 22.3M  11.5T   2.88T   2.90T    133K    4.01    99.39  ZFS plain file
 2.81M  3.10G   1.19G   7.30G   2.60K    2.59     0.24  ZFS directory
  356K  1.39G   1.39G   4.17G   12.0K    1.00     0.14  DDT ZAP algorithm

gzip-6 ("--whole-file", без "--inplace"), -1%:

tm_tiny  dedupratio                  1.51x                       -        -
tm_tiny  allocated                   2093273051136               -
tm_tiny  compressratio         4.04x                  -

zdb -L -bb tm_tiny

        bp count:        27399984
        ganged count:           0
        bp logical:    12693435492352      avg: 463264
        bp physical:   3134082138624      avg: 114382     compression:   4.05
        bp allocated:  3166689935360      avg: 115572     compression:   4.01
        bp deduped:    1073416884224    ref>1: 2297343   deduplication:   1.34
        SPA allocated: 2093273051136     used: 21.01%

        additional, non-pointer bps of type 0:    2010936
        Dittoed blocks on same vdev: 1990975

Blocks  LSIZE   PSIZE   ASIZE     avg    comp   %Total  Type
 10.6K  1.30G    382M   1.12G    108K    3.48     0.04  bpobj
  597K  9.33G   2.38G   4.77G   8.18K    3.91     0.16  DMU dnode
 22.3M  11.5T   2.84T   2.86T    131K    4.05    99.39  ZFS plain file
 2.81M  3.10G   1.19G   7.30G   2.60K    2.59     0.25  ZFS directory
  356K  1.39G   1.39G   4.17G   12.0K    1.00     0.14  DDT ZAP algorithm

gzip-7 ("--whole-file", без "--inplace"), -0.5%:

tm_tiny  dedupratio                  1.51x                       -
tm_tiny  allocated                   2083115761664
tm_tiny  compressratio         4.06x

zdb -L -bb tm_tiny
        bp count:        27405209
        ganged count:           0
        bp logical:    12693558216704      avg: 463180
        bp physical:   3117394068992      avg: 113751     compression:   4.07
        bp allocated:  3150006472704      avg: 114941     compression:   4.03
        bp deduped:    1066925805568    ref>1: 2297343   deduplication:   1.34
        SPA allocated: 2083080667136     used: 20.91%

        additional, non-pointer bps of type 0:    2011108
        Dittoed blocks on same vdev: 1996028

Blocks  LSIZE   PSIZE   ASIZE     avg    comp   %Total  Type
 10.6K  1.30G    381M   1.12G    108K    3.49     0.04  bpobj
  605K  9.45G   2.42G   4.83G   8.17K    3.91     0.16  DMU dnode
 22.3M  11.5T   2.83T   2.85T    131K    4.07    99.38  ZFS plain file
 2.81M  3.10G   1.19G   7.30G   2.60K    2.59     0.25  ZFS directory
  356K  1.39G   1.39G   4.17G   12.0K    1.00     0.14  DDT ZAP algorithm

gzip-8 ("--whole-file", без "--inplace"), -0.6%:

tm_tiny  dedupratio  1.51x
tm_tiny  allocated  2070754635776  -
tm_tiny  compressratio  4.09x

zdb -L -bb tm_tiny
        bp count:        27419302
        ganged count:           0
        bp logical:    12693815265280      avg: 462951
        bp physical:   3097623001600      avg: 112972     compression:   4.10
        bp allocated:  3130284740608      avg: 114163     compression:   4.06
        bp deduped:    1059530104832    ref>1: 2297343   deduplication:   1.34
        SPA allocated: 2070754635776     used: 20.78%

        additional, non-pointer bps of type 0:    2011052
        Dittoed blocks on same vdev: 2010177

Blocks  LSIZE   PSIZE   ASIZE     avg    comp   %Total  Type
 10.6K  1.30G    380M   1.11G    108K    3.51     0.04  bpobj
  621K   9.7G   2.48G   4.95G   8.17K    3.92     0.17  DMU dnode
 22.3M  11.5T   2.81T   2.83T    130K    4.10    99.38  ZFS plain file
 2.81M  3.10G   1.19G   7.30G   2.60K    2.59     0.25  ZFS directory
  356K  1.39G   1.39G   4.17G   12.0K    1.00     0.14  DDT ZAP algorithm

gzip-9 ("--whole-file", без "--inplace"), -0.1%:

tm_tiny  size                        9964324126720               -
tm_tiny  free                        7895386644480
tm_tiny  dedupratio                  1.51x                       -
tm_tiny  allocated                   2068940627968               -
tm_tiny  compressratio         4.09x

zdb -L -bb tm_tiny
        bp count:        27426552
        ganged count:           0
        bp logical:    12693967185920      avg: 462834
        bp physical:   3094907451392      avg: 112843     compression:   4.10
        bp allocated:  3127586385920      avg: 114034     compression:   4.06
        bp deduped:    1058648903680    ref>1: 2297343   deduplication:   1.34
        SPA allocated: 2068937482240     used: 20.76%

        additional, non-pointer bps of type 0:    2011058
        Dittoed blocks on same vdev: 2017421

Blocks  LSIZE   PSIZE   ASIZE     avg    comp   %Total  Type
 10.6K  1.30G    379M   1.11G    107K    3.52     0.04  bpobj
  630K   9.8G   2.51G   5.03G   8.17K    3.92     0.17  DMU dnode
 22.3M  11.5T   2.81T   2.83T    130K    4.10    99.37  ZFS plain file
 2.81M  3.10G   1.19G   7.30G   2.60K    2.59     0.25  ZFS directory
  355K  1.39G   1.39G   4.16G   12.0K    1.00     0.14  DDT ZAP algorithm

raidz2 и gzip-6 ("--whole-file", без "--inplace"), выделено в 1.253 больше блоков (для RAID-6 из 12 дисков - в 1.2)

tm_tiny  size                        11957188952064
tm_tiny  free                        9334419812352
tm_tiny  dedupratio                  1.54x
tm_tiny  allocated                   2622769139712    
tm_tiny  compressratio         4.04x

zdb -L -bb tm_tiny
        bp count:        27404976
        ganged count:           0
        bp logical:    12693421692928      avg: 463179
        bp physical:   3134099891712      avg: 114362     compression:   4.05
        bp allocated:  4014333050880      avg: 146481     compression:   3.16
        bp deduped:    1391563911168    ref>1: 2297343   deduplication:   1.35
        SPA allocated: 2622769139712     used: 21.93%

        additional, non-pointer bps of type 0:    2011046
        Dittoed blocks on same vdev: 1995857

Blocks  LSIZE   PSIZE   ASIZE     avg    comp   %Total  Type
 10.6K  1.30G    381M   1.67G    162K    3.49     0.04  bpobj
  594K  9.28G   2.37G   14.2G   24.5K    3.92     0.38  DMU dnode
 22.3M  11.5T   2.84T   3.60T    165K    4.05    98.59  ZFS plain file
 2.81M  3.10G   1.19G   21.9G   7.79K    2.59     0.59  ZFS directory
  356K  1.39G   1.39G   12.5G   36.0K    1.00     0.33  DDT ZAP algorithm

scrub: 2.17T scanned out of 2.39T at 85.0M/s, 0h44m to go 

Используемый SAN (Xyratex RS-1220-F4-5412E-DL-2) имеет аппаратное ограничение - FC 4Gb

tarnull для 20160101:
  2 потока - 117 MB/s
  4 потока - 162 MB/s
  6 потоков - 192 MB/s
  8 потоков - 206 MB/s
  10 потоков - 215 MB/s
  12 потоков - 216 MB/s
  16 потоков - 216 MB/s
  20 потоков - 241 MB/s

tarnull для 20160304
  10 потоков - 219 MB/s
  12 потоков - 220 MB/s
  16 потоков - 218 MB/s 
  20 потоков - 246 MB/s

tarnull для 20160304 (0.7.0-rc3)
  2 потока - 166 MB/s
  4 потока - 228 MB/s
  6 потоков - 262 MB/s
  8 потоков - 283 MB/s
  10 потоков - 295 MB/s
  12 потоков - 300 MB/s
  16 потоков - 301 MB/s 
  20 потоков - 302 MB/s

tarnull для 20160304 на сервере (0.7.0-rc3) с vdev для массива LSI MegaRAID RAID-6 из 15 SFF SAS 10k rpm, наполнение "send -cLeRp"
  1 поток - 259 MB/s
  2 потока - 418 MB/s
  4 потока - 615 MB/s
  6 потоков - 800 MB/s
  8 потоков - 864 MB/s
  10 потоков - 854 MB/s
  12 потоков - 848 MB/s
  16 потоков - 865 MB/s 
  20 потоков - 813 MB/s

raidz2 из 12 и gzip-6 (наполнение send -cLeRp /receive; в процессе заполнения отвалился диск, который потом лечился

zpool get -p size,free,allocated,dedupratio
NAME     PROPERTY    VALUE  SOURCE
tm_tiny  size        11957188952064  -
tm_tiny  free        9334041636864  -
tm_tiny  allocated   2623147315200  -
tm_tiny  dedupratio  1.54   -

zfs get compressratio tm_tiny
NAME     PROPERTY       VALUE  SOURCE
tm_tiny  compressratio  4.04x  -

zdb -L -bb tm_tiny
        bp count:        27415469
        ganged count:           0
        bp logical:    12693457568256      avg: 463003
        bp physical:   3134138611200      avg: 114320     compression:   4.05
        bp allocated:  4014709604352      avg: 146439     compression:   3.16
        bp deduped:    1391563911168    ref>1: 2297343   deduplication:   1.35
        SPA allocated: 2623145693184     used: 21.94%

        additional, non-pointer bps of type 0:    2011122
        Dittoed blocks on same vdev: 2006537

Blocks  LSIZE   PSIZE   ASIZE     avg    comp   %Total  Type
 10.5K  1.29G    377M   1.66G    161K    3.51     0.04  bpobj
 76.3K   315M    307M   2.70G   36.3K    1.02     0.07  SPA space map
  594K  9.28G   2.37G   14.2G   24.5K    3.92     0.38  DMU dnode
 22.3M  11.5T   2.84T   3.60T    165K    4.05    98.58  ZFS plain file
 2.81M  3.10G   1.19G   21.9G   7.79K    2.59     0.59  ZFS directory
  356K  1.39G   1.39G   12.5G   36.0K    1.00     0.33  DDT ZAP algorithm
 26.1M  11.5T   2.85T   3.65T    143K    4.05   100.00  Total

tarnull для 20160304 (0.7.0-rc3)
   12 потоков - 267 MB/s
   16 потоков - 269 MB/s
   20 потоков - 270 MB/s

после повторного наполнения send/receive без проблем (а также 35000000 в zfs_arc_max и zfs_arc_meta_limit)

tarnull для 20160304 (0.7.0-rc3)
    1 поток - 121 MB/s
    2 потока - 170 MB/s
    4 потока - 236 MB/s
    6 потоков - 270 MB/s
    8 потоков - 291 MB/s
   10 потоков - 299 MB/s
   12 потоков - 303 MB/s
   16 потоков - 304 MB/s
   20 потоков - 295 MB/s

2 raidz2 по 6 и gzip-6 (наполнение send -cLeRp /receive)

zpool get -p size,free,allocated,dedupratio
NAME     PROPERTY    VALUE  SOURCE
tm_tiny  size        11957188952064  -
tm_tiny  free        8727653990400  -
tm_tiny  allocated   3229534961664  - # перерасход в 1.5428 раза
tm_tiny  dedupratio  1.53   -

zfs get compressratio tm_tiny
NAME     PROPERTY       VALUE  SOURCE
tm_tiny  compressratio  4.04x  -

zdb -L -bb tm_tiny
        bp count:        27445179
        ganged count:           0
        bp logical:    12693582608384      avg: 462506
        bp physical:   3134269475840      avg: 114201     compression:   4.05
        bp allocated:  4922956111872      avg: 179374     compression:   2.58
        bp deduped:    1693421150208    ref>1: 2297343   deduplication:   1.34
        SPA allocated: 3229534961664     used: 27.01%

        additional, non-pointer bps of type 0:    2011126
        Dittoed blocks on same vdev: 1060267

Blocks  LSIZE   PSIZE   ASIZE     avg    comp   %Total  Type
 10.5K  1.29G    384M   1.80G    175K    3.44     0.04  bpobj
 79.9K   332M    322M   2.83G   36.3K    1.03     0.06  SPA space map
  594K  9.28G   2.37G   14.2G   24.5K    3.91     0.31  DMU dnode
 22.3M  11.5T   2.84T   4.42T    203K    4.05    98.82  ZFS plain file
 2.81M  3.10G   1.19G   21.9G   7.79K    2.59     0.48  ZFS directory
  381K  1.49G   1.49G   13.4G   36.0K    1.00     0.29  DDT ZAP algorithm

скорость проверки удвоилась
scan: scrub in progress since Thu Apr 20 07:10:51 2017
        2.93T scanned out of 2.94T at 159M/s, 0h1m to go
        0 repaired, 99.61% done

tarnull для 20160304 (0.7.0-rc3)
    1 поток - 115 MB/s
    2 потока - 167 MB/s
    4 потока - 243 MB/s
    6 потоков - 283 MB/s
    8 потоков - 313 MB/s
   10 потоков - 323 MB/s
   12 потоков - 330 MB/s
   16 потоков - 341 MB/s
   20 потоков - 335 MB/s

3 raidz2 по 4 и gzip-6 (наполнение send -cLeRp /receive)

zpool get -p size,free,allocated,dedupratio
NAME     PROPERTY    VALUE  SOURCE
tm_tiny  size        11957188952064  -
tm_tiny  free        7692747337728  -
tm_tiny  allocated   4264441614336  - # в 2.037 больше (в 1.2 для обычному RAID-6)
tm_tiny  dedupratio  1.52   -

zfs get compressratio tm_tiny
NAME     PROPERTY       VALUE  SOURCE
tm_tiny  compressratio  4.04x  -

zdb -L -bb tm_tiny

        bp count:        27439175
        ganged count:           0
        bp logical:    12693555247616      avg: 462607
        bp physical:   3134249929728      avg: 114225     compression:   4.05
        bp allocated:  6477939830784      avg: 236083     compression:   1.96
        bp deduped:    2213497663488    ref&1: 2297343   deduplication:   1.34
        SPA allocated: 4264442167296     used: 35.66%

        additional, non-pointer bps of type 0:    2011134
        Dittoed blocks on same vdev: 827925

Blocks  LSIZE   PSIZE   ASIZE     avg    comp   %Total  Type
 10.5K  1.29G    389M   2.36G    230K    3.40     0.04  bpobj
 59.7K   249M    241M   2.12G   36.3K    1.03     0.04  SPA space map
  594K  9.28G   2.37G   14.2G   24.5K    3.91     0.24  DMU dnode
 22.3M  11.5T   2.84T   5.84T    268K    4.05    99.10  ZFS plain file
 2.81M  3.10G   1.19G   21.9G   7.80K    2.59     0.36  ZFS directory
  396K  1.55G   1.55G   13.9G   36.0K    1.00     0.23  DDT ZAP algorithm
 26.2M  11.5T   2.85T   5.89T    231K    4.05   100.00  Total

скорость проверки ещё возросла
  scan: scrub in progress since Mon Apr 24 00:40:55 2017
        3.45T scanned out of 3.88T at 196M/s, 0h37m to go
        0 repaired, 89.04% done

tarnull для 20160304 (0.7.0-rc3)
    1 поток - 97.7 MB/s
    2 потока - 135 MB/s
    4 потока - 197 MB/s
    6 потоков - 235 MB/s
    8 потоков - 268 MB/s
   10 потоков - 285 MB/s
   12 потоков - 299 MB/s
   16 потоков - 314 MB/s
   20 потоков - 305 MB/s

12 vdev и gzip-6 (наполнение send -cLeRp /receive, вдвое быстрее, чем raidz2)

zpool get -p size,free,allocated,dedupratio
NAME     PROPERTY    VALUE  SOURCE
tm_tiny  size        11957188952064  -
tm_tiny  free        9863346946048  -
tm_tiny  allocated   2093842006016  -
tm_tiny  dedupratio  1.51   -

zfs get compressratio tm_tiny
NAME     PROPERTY       VALUE  SOURCE
tm_tiny  compressratio  4.04x  -

zdb -L -bb tm_tiny
2.88T completed (8629MB/s) estimated time remaining: 566307hr 55min 16sec        294967261sec
        bp count:        27441235
        ganged count:           0
        bp logical:    12693576012800      avg: 462573
        bp physical:   3134268470272      avg: 114217     compression:   4.05
        bp allocated:  3167258890240      avg: 115419     compression:   4.01
        bp deduped:    1073416884224    ref>1: 2297343   deduplication:   1.34
        SPA allocated: 2093842006016     used: 17.51%

        additional, non-pointer bps of type 0:    2011164
        Dittoed blocks on same vdev: 177854

Blocks  LSIZE   PSIZE   ASIZE     avg    comp   %Total  Type
 10.5K  1.29G    397M   1.16G    113K    3.33     0.04  bpobj
 75.4K   322M    304M    911M   12.1K    1.06     0.03  SPA space map
  594K  9.28G   2.37G   4.74G   8.18K    3.91     0.16  DMU dnode
 22.3M  11.5T   2.84T   2.86T    131K    4.05    99.37  ZFS plain file
 2.81M  3.10G   1.19G   7.30G   2.60K    2.59     0.25  ZFS directory
  382K  1.49G   1.49G   4.47G   12.0K    1.00     0.15  DDT ZAP algorithm
 26.2M  11.5T   2.85T   2.88T    113K    4.05   100.00  Total

  scan: scrub in progress since Thu Apr 27 13:23:40 2017
        1.86T scanned out of 1.90T at 248M/s, 0h3m to go
        0 repaired, 97.61% done

tarnull для 20160304 (0.7.0-rc3)
    1 поток - 113 MB/s
    2 потока - 161 MB/s
    4 потока - 251 MB/s
    6 потоков - 308 MB/s
    8 потоков - 353 MB/s
   10 потоков - 375 MB/s
   12 потоков - 403 MB/s
   16 потоков - 421 MB/s
   20 потоков - 416 MB/s

6 vdev типа mirror из 2 и gzip-6 (наполнение send -cLeRp /receive

zpool get -p size,free,allocated,dedupratio
NAME     PROPERTY    VALUE  SOURCE
tm_tiny  size        5978594476032  -
tm_tiny  free        3884873994240  -
tm_tiny  allocated   2093720481792  -
tm_tiny  dedupratio  1.51   -

zfs get compressratio tm_tiny
NAME     PROPERTY       VALUE  SOURCE
tm_tiny  compressratio  4.04x  -

zdb -L -bb tm_tiny
        bp count:        27432865
        ganged count:           0
        bp logical:    12693535600128      avg: 462712
        bp physical:   3134227532288      avg: 114250     compression:   4.05
        bp allocated:  3167137366016      avg: 115450     compression:   4.01
        bp deduped:    1073416884224    ref>1: 2297343   deduplication:   1.34
        SPA allocated: 2093720481792     used: 35.02%

        additional, non-pointer bps of type 0:    2011140
        Dittoed blocks on same vdev: 519105

Blocks  LSIZE   PSIZE   ASIZE     avg    comp   %Total  Type
 10.5K  1.29G    391M   1.15G    111K    3.38     0.04  bpobj
 69.9K   293M    282M    846M   12.1K    1.04     0.03  SPA space map
  594K  9.28G   2.37G   4.74G   8.17K    3.91     0.16  DMU dnode
 22.3M  11.5T   2.84T   2.86T    131K    4.05    99.37  ZFS plain file
 2.81M  3.10G   1.19G   7.30G   2.60K    2.59     0.25  ZFS directory
  379K  1.48G   1.48G   4.44G   12.0K    1.00     0.15  DDT ZAP algorithm
 26.2M  11.5T   2.85T   2.88T    113K    4.05   100.00  Total 

scrub
        1.88T scanned out of 1.90T at 128M/s, 0h3m to go
        0 repaired, 98.84% done 

tarnull для 20160304 (0.7.0-rc3)
    1 поток - 108 MB/s
    2 потока - 164 MB/s
    4 потока - 252 MB/s
    6 потоков - 306 MB/s
    8 потоков - 356 MB/s
   10 потоков - 384 MB/s
   12 потоков - 403 MB/s
   16 потоков - 421 MB/s
   20 потоков - 414 MB/s

В связи с проблемами в реализации дельта алгоритма в rsync в режиме "--inplace" попробовал отключить его ("--whole-file --inplace") и оценить разницу на небольшом подмножестве (share4x/a[a-l]*:20160101-20160131, 1.5TB), gzip-1, итог: в 1.5 раза быстрее, место примерно столько же за счёт увеличения коэффициента дедупликации ("--whole-file" отличается от "--whole-file --inplace"):

--inplace, 10 часов на изменения

   tm_tiny  dedupratio                  1.38x
   tm_tiny  allocated                   401313722368
   tm_tiny           used                  552812175360
   tm_tiny           referenced            426534752256
   tm_tiny           compressratio         3.85x
   tm_tiny           usedbysnapshots       125003440128           -
   tm_tiny           usedbydataset         426534752256           -
   tm_tiny           usedbychildren        1273982976             -

zfs rollback -R tm_tiny@20160101
--whole-file --inplace, 6.5 часов на изменения

   tm_tiny  dedupratio                  1.43x                       -
   tm_tiny  allocated                   401376501760                -
   tm_tiny           used                  573943959552           -
   tm_tiny           referenced            426534752256           -
   tm_tiny           compressratio         4.18x                  -
   tm_tiny           usedbysnapshots       146084622336           -
   tm_tiny           usedbydataset         426534752256           -
   tm_tiny           usedbychildren        1324584960

Попробовал rsync 3.1.1 на том же подмножестве, gzip-1, итог: стало быстрее чем в 3.0, но медленнее, чем с --whole-file, --preallocate выигрыша в месте не даёт:

--preallocate и --inplace без --whole-file, 7 часов 45 мин
   tm_tiny  dedupratio                  1.38x
   tm_tiny  allocated                   401245483008
   tm_tiny           used                  552747048960
   tm_tiny           referenced            426536271872
   tm_tiny           compressratio         3.85x
   tm_tiny           usedbysnapshots       125001945088           -
   tm_tiny           usedbydataset         426536271872           -
   tm_tiny           usedbychildren        1208832000  

zdb -L -b tm_tiny
        bp count:         6923504
        ganged count:           0
        bp logical:    2094598171136      avg: 302534
        bp physical:   542733561344      avg:  78390     compression:   3.86
        bp allocated:  552747257856      avg:  79836     compression:   3.79
        bp deduped:    151501774848    ref>1: 372618   deduplication:   1.27
        SPA allocated: 401245483008     used:  4.05%

        additional, non-pointer bps of type 0:     892290
        Dittoed blocks on same vdev: 622766

Статистика по [почти] всему массиву данных при тестовом восстановлении (compression=lz4, dedup=on):

zfs get compressratio,logicalused;zpool get dedupratio restore
NAME     PROPERTY       VALUE  SOURCE
restore  compressratio  2.32x  -
restore  logicalused    67.9T  -
NAME     PROPERTY    VALUE  SOURCE
restore  dedupratio  1.38x  -

Статистика по time_machine (compression=gzip-6, dedup=on, 1691 снимок):

NAME                   PROPERTY       VALUE  SOURCE
time_machine           compressratio  3.30x  -
time_machine           logicalused    696T
NAME          PROPERTY    VALUE  SOURCE
time_machine  dedupratio  1.49x  -

Выделенный сервер архива с дедупликацией, версия 3

Время идёт, появляются новые возможности, выявляются недостатки. Например, нельзя исключить "вредные" файлы из экспорта потребителям. Выделенный сервер архива с дедупликацией: CentOS 7.9, zfs 2.1.7, 8 ядер по 3.5GHz, 128 ГиБ ОП, сеть 2x10 Gbps, локальный массив среднего размера (LSI MEGARAID RAID-6 of 18 HDD LFF 10 TB 7200 rpm и RAID-6 of 8 HDD LFF 10 TB 7200 rpm).

2048 в /proc/sys/kernel/random/read_wakeup_threshold (или "kernel.random.read_wakeup_threshold = 2048" в /etc/sysctl.conf)
vm.dirty_background_bytes = 100000000
vm.dirty_bytes = 400000000
noop в scheduler всем
256 в nr_requests всем
$[512*1024] в /proc/sys/vm/min_free_kbytes
0 в /proc/sys/kernel/sched_nr_migrate

Параметры модуля spl (/etc/modprobe.d/spl.conf): отсутствуют.

Параметры модуля zfs (/etc/modprobe.d/zfs.conf):

# большой архив (300ТБ) с дедупликацией

options zfs zfs_max_recordsize=16777216

# пусть импортирует из кеша
options zfs zfs_autoimport_disable=1
# для исследования
options zfs spa_load_print_vdev_tree=1
# от греха подальше
options zfs ignore_hole_birth=1
# выделение свободного места
options zfs metaslab_lba_weighting_enabled=0
options zfs spa_asize_inflation=3
#options zfs spa_slop_shift=6
options zfs spa_slop_shift=7
# архиву больше заняться нечем
options zfs zio_taskq_batch_pct=85
# потеря части наливаемых данных не страшна
options zfs zfs_txg_timeout=30
options zfs zfs_nocacheflush=1
options zfs zil_nocacheflush=1
# глубина очереди на MegaRAID и SSD может быть больше
options zfs zfs_vdev_async_write_max_active=16
options zfs zfs_vdev_async_write_min_active=4
# всю память под кеш!
#options zfs zfs_arc_max=80000000000
options zfs zfs_arc_max=40000000000
options zfs zfs_arc_meta_limit_percent=100
options zfs zfs_arc_average_blocksize=65536
options zfs zfs_arc_grow_retry=5
# и агрессивно чистить кеш
options zfs zfs_arc_lotsfree_percent=5
options zfs zfs_arc_meta_prune=100000

options zfs zfs_scan_strict_mem_lim=1

Создание пула (оглавление на SSD, bin/zfs_tm.sh)

zpool create -f -o ashift=12 -o autoexpand=on \
-d \
-o feature@allocation_classes=enabled \
-o feature@async_destroy=enabled \
-o feature@bookmarks=enabled -o feature@bookmark_v2=enabled -o feature@bookmark_written=enabled \
-o feature@device_rebuild=enabled -o feature@device_removal=enabled \
-o feature@edonr=enabled -o feature@sha512=enabled -o feature@skein=enabled \
-o feature@embedded_data=enabled \
-o feature@empty_bpobj=enabled \
-o feature@enabled_txg=enabled -o feature@extensible_dataset=enabled \
-o feature@encryption=enabled \
-o feature@large_blocks=enabled \
-o feature@large_dnode=enabled \
-o feature@livelist=enabled \
-o feature@log_spacemap=enabled \
-o feature@lz4_compress=enabled -o feature@zstd_compress=enabled \
-o feature@redacted_datasets=enabled -o feature@redaction_bookmarks=enabled \
-o feature@resilver_defer=enabled \
-o feature@spacemap_histogram=enabled -o feature@spacemap_v2=enabled \
-o feature@zpool_checkpoint=enabled \
-O aclinherit=passthrough -O aclmode=passthrough -O acltype=posix -O xattr=sa \
-O atime=off -O relatime=off \
-O checksum=sha256 \
-O compression=zstd-12 \
-O dedup=sha256 \
-O dnodesize=legacy \
-O devices=off \
-O overlay=off \
-O primarycache=metadata -O secondarycache=metadata \
-O recordsize=16777216 \
-O redundant_metadata=none \
-O sharenfs=off -O sharesmb=off \
-O snapdir=visible \
-O special_small_blocks=0 \
-O sync=disabled -O logbias=throughput \
-O mountpoint=none \
bigpool /dev/data/tm /dev/data/tm2 special /dev/disk/by-id/ata-INTEL_SSDSC2KB038T8_PHYF020300AY3P8EGN

zfs create bigpool/time_machine \
-o aclinherit=passthrough -o aclmode=passthrough -o acltype=posix -o xattr=sa \
-o atime=off -o relatime=off \
-o checksum=sha256 \
-o compression=zstd-12 \
-o dedup=sha256 \
-o dnodesize=legacy \
-o devices=off \
-o overlay=off \
-o primarycache=metadata -o secondarycache=metadata \
-o recordsize=16777216 \
-o redundant_metadata=none \
-o sharenfs=off -o sharesmb=off \
-o snapdir=visible \
-o special_small_blocks=0 \
-o sync=disabled -o logbias=throughput \
-o mountpoint=/time_machine

mkdir /time_machine/{colddata,raid,share4h,share4s,share4x,share5c,share5d,share5e,share5f,xeon01,xeon04}

Наполнение архива с помощью rsync каталогами в параллель из предыдущего архива, дневная часть, делается клон (его можно почистить и экспортировать), полный суточный архив getall_snapshot.sh:

#!/bin/bash

DATE=$1
echo $DATE

snap=`ssh старый-архив ls -1d '/time_machine/.zfs/snapshot/'$DATE 2>&1`
if [ "$snap" = "/time_machine/.zfs/snapshot/$DATE" ]
then
  ls -1d /time_machine/*/*|awk -F/ '{print  $3 "/" $4}' |LANG= sort > /tmp/getall.current.list
  (ssh старый-архив ls -1d '/time_machine/.zfs/snapshot/'$DATE'/*/*';)|awk -F/ '{print  $6 "/" $7}'|LANG= sort > /tmp/getall.new.list
  LANG= comm -23 /tmp/getall.current.list /tmp/getall.new.list | awk '{print "/time_machine/" $1}' | xargs --verbose --no-run-if-empty --max-args=1 --max-procs=1 rm -r 2>&1 | cat --squeeze-blank > /root/rsync/rsync.$DATE.deleted.log
  rm /tmp/getall.current.list /tmp/getall.new.list
  if [ ! -s /root/rsync/rsync.$DATE.deleted.log ]
  then
   rm /root/rsync/rsync.$DATE.deleted.log
  fi

  (ssh старый-архив ls -d '/time_machine/.zfs/snapshot/'$DATE'/*/*'; )|awk -F/ '{print $5 "/" $6 "/" $7}' | xargs --verbose --max-args=1 --max-procs=20 getdir_snapshot.sh 2>&1 | xz  > /root/rsync/rsync.$DATE.log.xz
fi
zfs snapshot bigpool/time_machine@$DATE
zfs clone -o mountpoint=/clones/$DATE -p bigpool/time_machine@$DATE bigpool/clones/$DATE

копирование каталога getdir_snapshot.sh:

#!/bin/bash

if [ -z "$1" ]
then
  echo empty
  exit
else
  DATE=`echo $1|awk -F/ '{print $1}'`
  DIR=`echo $1|awk -F/ '{print $2 "/" $3}'`
  FILESYSTEM=`echo $1|awk -F/ '{print $2}'`

  if [ -z `ssh старый-архив ls -ld /time_machine/.zfs/snapshot/$DATE/$DIR|grep '^d.*'|awk '{print $1}'` ]; 
  then   
     echo $DIR is nodir
     rm -rf /time_machine/$DIR
  else
     rsync --password-file=/root/rsync.password -vas -HAX --inplace --ignore-errors --delete --max-size=100G --exclude '*.da_vinci_code' --exclude '.mozilla/**/Cache' --exclude .Trash --exclude .local/share/Trash --exclude /temp/ --exclude .local/share/gvfs-metadata --exclude ... --delete-excluded --stats --whole-file --numeric-ids  btrfs@старый-архив::time_machine_copy/$DATE/$DIR/ /time_machine/$DIR/
  fi

fi

Выделенный сервер архива с дедупликацией, версия 4

Выделенный сервер архива с дедупликацией: CentOS 7.9 (8.9?), zfs 2.2.2, 36 ядер по 3.0GHz, 512 ГиБ ОП, сеть 2x40 Gbps, локальный массив большого размера (2 x LSI/Broadcom MegaRAID RAID-6 of 17 HDD SAS LFF 16 TB 7200 rpm) и зеркало из частей INTEL D7-P5620.

Сборка сервера SuperMicro SSG-640P-E1CR36L.

Настройка BIOS/UEFI SuperMicro X12DPi-NT6

Настройка контроллера LSI/Broadcom MegaRAID 9560-8i (суперконденсатор CV на месте):

/opt/MegaRAID/storcli/storcli64 /c0 set bios Mode=SOE # стоять, если что не так
/opt/MegaRAID/storcli/storcli64 /c0 set coercion=0 # были проблемы с вычислениями
/opt/MegaRAID/storcli/storcli64 /c0 set copyback=off type=all # без неожиданностей
/opt/MegaRAID/storcli/storcli64 /c0 set dimmerswitch=off type=4 # не спать!
/opt/MegaRAID/storcli/storcli64 /c0 start dpm # сбор статистики
/opt/MegaRAID/storcli/storcli64 /c0 set foreignautoimport=off # без неожиданностей
/opt/MegaRAID/storcli/storcli64 /c0 set loadbalancemode=on # хотя тут 1 порт
/opt/MegaRAID/storcli/storcli64 /c0 set patrolread=off # везде CC
/opt/MegaRAID/storcli/storcli64 /c0 set perfmode=1 # не поддерживается, но Support Perf Tuning = Yes

Создание массива

/opt/MegaRAID/storcli/storcli64 /c0 add vd type=raid6 size=all name=first drives=250:0-11,251:0-4 pdcache=off wb nora direct Strip=64
/opt/MegaRAID/storcli/storcli64 /c0 add vd type=raid6 size=all name=second drives=251:5-15,18-23 pdcache=off wb nora direct Strip=64
# и немедленно
/opt/MegaRAID/storcli/storcli64 /c0/vall set autobgi=off
/opt/MegaRAID/storcli/storcli64 /c0/vall start init full

pvcreate /dev/sdc
pvcreate /dev/sdd
vgcreate data /dev/sdc /dev/sdd
lvcreate -n tm --stripes 2 --stripesize 64K -l +100%FREE data

Раздел зеркала под special vdev на частях INTEL D7-P5620 (SSDPF2KE064T1, U.2, PCIe 4 x4, 3D TLC, 3DWPD - 35PBW, конденсаторы для защиты от пропадания питания на месте)

mdadm --create /dev/md/SSD --verbose --raid-devices=2 --level=raid1 --name=zfsmeta /dev/nvme0n1 /dev/nvme1n1
pvcreate /dev/md/SSD
vgcreate SSD /dev/md/SSD
lvcreate -n zfsmeta -L 2T SSD

Настройки системы:

не спать!

modprobe acpi_cpufreq
x86_energy_perf_policy performance
for cpu in /sys/devices/system/cpu/cpu[0-9]*
do
  echo performance > $cpu/cpufreq/scaling_governor
done

#? 2048 в /proc/sys/kernel/random/read_wakeup_threshold # или "kernel.random.read_wakeup_threshold = 2048" в /etc/sysctl.conf, если генератор псевдослучайных чисел потребляет много времени ЦП
vm.dirty_background_bytes = 100000000
vm.dirty_bytes = 400000000
noop в scheduler всем
256 в nr_requests всем
$[512*1024] в /proc/sys/vm/min_free_kbytes
#? 0 в /proc/sys/kernel/sched_nr_migrate # если достаёт миграция

Параметры модуля spl (/etc/modprobe.d/spl.conf): отсутствуют.

Параметры модуля zfs (/etc/modprobe.d/zfs.conf):

# у нас большие батальоны
options zfs zfs_max_recordsize=16777216

# всё вручную
options zfs zfs_autoimport_disable=1

# от греха подальше
options zfs zfs_bclone_enabled=0
options zfs ignore_hole_birth=1

# для совместимости DDT с исходным архивом
options zfs zstd_earlyabort_pass=0

# выделение свободного места
options zfs metaslab_lba_weighting_enabled=0
options zfs spa_asize_inflation=3
options zfs spa_slop_shift=7
options zfs zfs_fallocate_reserve_percent=100

# архиву больше заняться нечем
options zfs zio_taskq_batch_pct=85

# потеря части наливаемых в архив данных не страшна
options zfs zfs_txg_timeout=30
options zfs zfs_nocacheflush=1
options zfs zil_nocacheflush=1

# глубина очереди на MegaRAID и SSD моожет быть больше
options zfs zfs_vdev_async_write_max_active=16
options zfs zfs_vdev_async_write_min_active=4
options zfs zfs_vdev_sync_read_max_active=40

# всю память под кеш! ну не совсем
options zfs zfs_arc_max=80000000000
options zfs zfs_arc_average_blocksize=65536
options zfs zfs_arc_grow_retry=5

# и агрессивно чистить кеш
options zfs zfs_vdev_async_write_active_min_dirty_percent=10

# если интенсивное чтение (параллельный rsync)
#options zfs zfs_prefetch_disable=1

options zfs zfs_scan_strict_mem_lim=1

Свойства пула:

-d \
-o feature@allocation_classes=enabled \
-o feature@async_destroy=enabled \
-o feature@device_removal=enabled \
-o feature@embedded_data=enabled \
-o feature@empty_bpobj=enabled \
-o feature@enabled_txg=enabled -o feature@extensible_dataset=enabled \
-o feature@head_errlog=enabled \
-o feature@large_blocks=enabled \
-o feature@large_dnode=enabled \
-o feature@livelist=enabled \
-o feature@log_spacemap=enabled \
-o feature@lz4_compress=enabled -o feature@zstd_compress=enabled \
-o feature@resilver_defer=enabled \
-o feature@spacemap_histogram=enabled -o feature@spacemap_v2=enabled \
-o feature@userobj_accounting=enabled \
-o feature@zpool_checkpoint=enabled \
-o ashift=12 -o autoexpand=on \
bigpool /dev/data/tm special /dev/SSD/zfsmeta

Свойства набора данных:

-O aclinherit=passthrough -O aclmode=passthrough -O acltype=posix -O xattr=sa \
-O atime=off -O relatime=off \
-O checksum=sha256 \
-O compression=zstd-12 \
-O dedup=sha256 \
-O dnodesize=legacy \
-O devices=off \
-O overlay=off \
-O primarycache=metadata -O secondarycache=none \
-O recordsize=16777216 \
-O redundant_metadata=none \
-O sharenfs=off -O sharesmb=off \
-O snapdir=visible \
-O special_small_blocks=0 \
-O sync=disabled -O logbias=throughput \
-O mountpoint=none \

Заливка копии по частям - цепочки снимков (основанные на снимках клоны не копируются):

имеются снимки и клоны с 20150101 по 20240131
zfs send -R -Lec bigpool/time_machine@20240131| mbuffer -O приёмник:7777 -m 1G -s 1048576

пул bigpool создан, а файловая система нет
mbuffer -I 7777 -m 1G -s 1048576| zfs receive -vd -F -o aclinherit=passthrough -o aclmode=passthrough -o acltype=posix -o xattr=sa \
  -o atime=off -o relatime=off -o checksum=sha256 -o compression=zstd-12 -o dedup=sha256 -o dnodesize=legacy -o devices=off \
  -o overlay=off -o primarycache=metadata -o secondarycache=none -o recordsize=16777216 -o redundant_metadata=none\
  -o sharenfs=off -o sharesmb=off -o snapdir=visible -o special_small_blocks=0 -o sync=disabled -o logbias=throughput \
  -o mountpoint=/time_machine bigpool

receiving full stream of bigpool/time_machine@20150101 into bigpool/time_machine@20150101
in @ 28.0 MiB/s, out @ 28.0 MiB/s, 11.2 TiB total, buffer   0% fullreceived 11.2T stream in 113336.17 seconds (104M/sec)
receiving incremental stream of bigpool/time_machine@20150102 into bigpool/time_machine@20150102
in @ 53.9 MiB/s, out @ 49.9 MiB/s, 11.3 TiB total, buffer   0% fullreceived 29.1G stream in 145.54 seconds (205M/sec)
...

summary:  374 TiByte in 464h 34min 55.0sec - average of  234 MiB/s
# повторно с правильными настройками приёмника
summary:  374 TiByte in 395h 20min 46.6sec - average of  275 MiB/s

for DATE in `ls /time_machine/.zfs/snapshot/`; do zfs clone -o mountpoint=/clones/$DATE -p bigpool/time_machine@$DATE bigpool/clones/$DATE; done

Конечный результат

NAME            SIZE  ALLOC   FREE  CKPOINT  EXPANDSZ   FRAG    CAP  DEDUP    HEALTH  ALTROOT
bigpool         439T   244T   195T        -         -     0%    55%  1.53x    ONLINE  -
  data/tm       437T   243T   194T        -         -     0%  55.6%      -    ONLINE
special            -      -      -        -         -      -      -      -         -
  SSD/zfsmeta     2T   941G  1.07T        -         -    39%  46.3%      -    ONLINE
COMPRESS        RATIO   USED  LUSED  AVAIL
zstd-12         3.42x   374T  1.24P   193T

DDT ~40GB в памяти

zdb -L -bb bigpool

 374T completed (18186MB/s)

        bp count:            1428006631
        ganged count:                 0
        bp logical:      1401826123974656      avg: 981666
        bp physical:     408889790567424      avg: 286336     compression:   3.43
        bp allocated:    411025536360448      avg: 287831     compression:   3.41
        bp deduped:                   0    ref>1:      0   deduplication:   1.00
        bp cloned:                    0    count:      0
        Normal class:    266855525736448     used: 55.60%
        Special class     1011439149056     used: 46.36%
        Embedded log class              0     used:  0.00%

        additional, non-pointer bps of type 0:  155840545
        Dittoed blocks on same vdev: 3253922

средний размер блока 287831

Blocks  LSIZE   PSIZE   ASIZE     avg    comp   %Total  Type
     -      -       -       -       -       -        -  unallocated
     2    32K      8K     24K     12K    4.00     0.00  object directory
   440   348K    248K   5.23M   12.2K    1.40     0.00  object array
     1    16K      4K     12K     12K    4.00     0.00  packed nvlist
     -      -       -       -       -       -        -  packed nvlist size
 1.79M   229G   40.1G    120G   67.3K    5.70     0.03  bpobj
     -      -       -       -       -       -        -  bpobj header
     -      -       -       -       -       -        -  SPA space map header
 28.3K  3.52G    187M    561M   19.8K   19.30     0.00  SPA space map
     -      -       -       -       -       -        -  ZIL intent log
 86.6M  1.68T    433G    433G   5.00K    3.99     0.11  DMU dnode
 3.23K  12.9M   12.9M   12.9M   4.00K    1.00     0.00  DMU objset
     -      -       -       -       -       -        -  DSL directory
 3.27K  2.09M    176K    540K     165   12.13     0.00  DSL directory child map
 3.27K  2.09M    176K    528K     161   12.16     0.00  DSL dataset snap map
 6.49K   104M   25.9M   77.8M   12.0K    4.00     0.00  DSL props
     -      -       -       -       -       -        -  DSL dataset
     -      -       -       -       -       -        -  ZFS znode
     -      -       -       -       -       -        -  ZFS V0 ACL
 1.03G  1.24P    371T    373T    363K    3.43    99.76  ZFS plain file
  196M   451G   90.4G    207G   1.05K    4.99     0.05  ZFS directory
     3  1.50K   1.50K     16K   5.33K    1.00     0.00  ZFS master node
     -      -       -       -       -       -        -  ZFS delete queue
     -      -       -       -       -       -        -  zvol object
     -      -       -       -       -       -        -  zvol prop
     -      -       -       -       -       -        -  other uint8[]
     -      -       -       -       -       -        -  other uint64[]
     -      -       -       -       -       -        -  other ZAP
     -      -       -       -       -       -        -  persistent error log
   294  36.8M   2.47M   7.41M   25.8K   14.89     0.00  SPA history
     -      -       -       -       -       -        -  SPA history offsets
     -      -       -       -       -       -        -  Pool properties
     -      -       -       -       -       -        -  DSL permissions
     -      -       -       -       -       -        -  ZFS ACL
     -      -       -       -       -       -        -  ZFS SYSACL
     -      -       -       -       -       -        -  FUID table
     -      -       -       -       -       -        -  FUID table size
     -      -       -       -       -       -        -  DSL dataset next clones
     -      -       -       -       -       -        -  scan work queue
 6.45K   119M   38.7M   38.7M   6.00K    3.08     0.00  ZFS user/group/project used
     -      -       -       -       -       -        -  ZFS user/group/project quota
     -      -       -       -       -       -        -  snapshot refcount tags
 1.17M  37.3G   22.3G   66.9G   57.4K    1.67     0.02  DDT ZAP algorithm
     2    32K     12K     36K     18K    2.67     0.00  DDT statistics
 23.2M  11.6G   11.6G   92.7G   4.00K    1.00     0.02  System attributes
     -      -       -       -       -       -        -  SA master node
     3  4.50K   4.50K     16K   5.33K    1.00     0.00  SA attr registration
     8   128K     32K     40K      5K    4.00     0.00  SA attr layouts
     -      -       -       -       -       -        -  scan translations
     -      -       -       -       -       -        -  deduplicated block
 53.7K  1.25G    389M   1.14G   21.8K    3.29     0.00  DSL deadlist map
     -      -       -       -       -       -        -  DSL deadlist map hdr
    23   464K    168K    504K   21.9K    2.76     0.00  DSL dir clones
     -      -       -       -       -       -        -  bpobj subobj
     -      -       -       -       -       -        -  deferred free
     -      -       -       -       -       -        -  dedup ditto
 9.74K  5.47M   51.5K    180K      18   108.71    0.00  other
 1.33G  1.25P    372T    374T    281K    3.43   100.00  Total
  314M  2.97T    618G    942G   3.00K    4.93     0.25  Metadata Total

Block Size Histogram

  block   psize                lsize                asize
   size   Count   Size   Cum.  Count   Size   Cum.  Count   Size   Cum.
    512:   335M   167G   167G   335M   167G   167G      0      0      0
     1K:   165M   201G   368G   165M   201G   368G      0      0      0
     2K:   124M   331G   699G   124M   331G   699G      0      0      0
     4K:   343M  1.36T  2.04T   116M   624G  1.29T   955M  3.73T  3.73T
     8K:  89.5M   821G  2.84T  93.8M  1.03T  2.32T  97.7M   882G  4.59T
    16K:  35.8M   736G  3.56T   159M  2.90T  5.22T  36.4M   738G  5.31T
    32K:  20.6M   874G  4.41T  52.3M  2.19T  7.41T  21.4M   912G  6.20T
    64K:  12.8M  1.10T  5.52T  29.7M  2.61T  10.0T  13.8M  1.18T  7.38T
   128K:  10.2M  1.81T  7.32T  28.6M  4.43T  14.4T  10.6M  1.87T  9.25T
   256K:  11.1M  4.02T  11.3T  10.5M  3.73T  18.2T  11.2M  4.02T  13.3T
   512K:  14.9M  10.9T  22.2T  7.89M  5.71T  23.9T  14.9M  10.9T  24.2T
     1M:  15.1M  22.6T  44.8T  6.44M  9.08T  33.0T  15.1M  22.6T  46.7T
     2M:  12.2M  32.6T  77.4T  5.49M  14.8T  47.7T  12.2M  32.7T  79.4T
     4M:  7.09M  41.9T   119T  3.22M  18.5T  66.3T  7.09M  41.9T   121T
     8M:  5.83M  66.2T   186T  2.36M  26.5T  92.7T  5.83M  66.2T   187T
    16M:  11.6M   186T   372T  73.9M  1.15P  1.25P  11.6M   186T   374T

zdb -L -MM bigpool
        vdev          0         metaslabs27940          fragmentation  0%
                         30:   4103 *******
                         31:     57 *
                         32:  23779 ****************************************
        vdev          1         metaslabs  127          fragmentation 39%
                         12: 924926 *************
                         13: 737630 **********
                         14: 2954248 ****************************************
                         15: 1775606 *************************
                         16: 1223379 *****************
                         17: 724551 **********
                         18: 437028 ******
                         19: 274588 ****
                         20: 143446 **
                         21:  49990 *
                         22:  10918 *
                         23:   1209 *
                         24:      8 *

Основные изменения в версиях

Отличия версии 0.6.5.13 (ядро 2.6.32 - 4.12) относительно 0.6.4
- -o remount
- доступ к снимкам по NFS
- "zpool export -a" - экспортировать всё
- адаптация к systemd
- фича large_blocks (записи более 128КБ - от 512 до zfs_max_recordsize (1МБ) или 16МБ) - увеличивается скорость ввода/вывода, но замедляются изменения и увеличиваются задержки
- фича filesystem_limits - максимальное количество файловых систем и снимков в точке
- сломана фича birth_hole
- зарезервированный объём по умолчанию увеличен с 1.6% до 3.2% (spa_slop_shift)
- загрузка модулей ZFS теперь осуществляется при помощи systemd или скриптов sysv init (initramfs после перезагрузки), ранее запуск утилит zpool/zfs приводил к автоматической загрузке модулей, старое поведение можно вернуть через установку переменной окружения ZFS_MODULE_LOADING=yes, которая будет удалена в одном из будущих выпусков
- динамическое порождение и завержение потоков (spl_taskq_thread_dynamic), удалён zvol_threads
- по умолчанию zfs_arc_c_min изменён с 4МБ на 32МБ
- zfs_admin_snapshot управляет возможностью создавать снимки командами mkdir и т.д.
- zfs_arc_lotsfree_percent (удалён zfs_arc_memory_throttle_disable) - ARC освобождает сразу много, если остаток памяти падает ниже этого уровня
- zfs_arc_num_sublists_per_state
- zfs_arc_p_min_shift
- zfs_arc_sys_free - целевое значение свободной памяти
- zfs_dbgmsg_enable, zfs_dbgmsg_maxsize
- zfs_arc_meta_strategy
- удалён metaslab_min_alloc_size
- версия для PowerPC
- версия для MIPS
Изменения в версии 0.7 (0.7.1-0.7.13 - vdev_id, исправление ошибок и адаптация к новым ядрам до 4.19) отноительно 0.6.5.13
- делегирование прав администрирования непривилегированным пользователям "zfs allow" и "zfs unallow"
- непривилегированные пользователи могут выполнять команды: zpool list, zpool iostat, zpool status, zpool get, zfs list, zfs get
- большие dnode для хранения расширенных атрибутов (ACL, SELinux, символьные ссылки)
- монтирование с lazyatime
- свойство clones
- продолжение прерванного по сбою в сети/системе send/receive
- можно переназначить свойств пула при "zfs receive -o" и "zfs receive -x"
- send/receive сжатых данных (ключ -c)
- в zpool можно использовать альтернативные имена из vdev (ключи -gLp)
- "zpool create -o feature@фича=disabled"
- свойство пула multihost - осуществляется проверка, что пул уже кем-то импортирован
- дополнительные данные от внешних скриптов в zpool iostat|status
- информация о задержках ввода/вывода "zpool iostat -l"
- гистограмма задержек ввода/вывода "zpool iostat -w"
- гистограмма размера запросов "zpool iostat -r"
- информация об очередях "zpool iostat -hHp"
- информация о размере запросов ввода/вывода "zpool iostat -r"
- проверку можно приостанавливать и продолжать "zpool scrub -p"
- криптографически стойкие контрольные суммы SHA-512, Skein и Edon-R
- автоматическое обнаружение дисков пула, перестроение с использованием дисков горячей замены, замена дисков (свойство пула autoreplace)
- управление индикаторами сбоя диска на корпусе (любыми?!)
- автоматическое объявление диска неисправным при большом количестве ошибок чтения, записи, контрольной суммы
- объявление диска неисправным вручную - "zpool offline -f"
- понимание особенностей multipath
- более эфективное использование буфера - списочная структура ARC Buffer Data (ABD), данные хранятся в сжатом виде
- использование SIMD (sse2, ssse3, avx2, avx512) для вычислений RAIDZ и контрольной суммы Fletcher-4
- вынос сжатия gzip на аппаратуру QAT (Intel QuickAssist Technology) - QuickAssist Adapter 8950, чипсет C62X (как?)
- ускорение работы с метаданными: многопоточное выделение, пакетная работа с квотами
- ускорение восстановления RAIDZ (пропуск ненужных интервалов)
- фича multi_vdev_crash_dump
- свойства пула createtxg и guid и volmode (видимость)
- свойство пула multihost (пул виден на нескольких хостах) для предотвращения одновременного импорта
- учёт и квотирование для пользователей (zfs userspace) и групп (zfs groupspace)
- синхронизация транзакций на диск - "zpool sync"
- права к /dev/zfs изменены с 0660 на 0666
- для экспорта снимков по NFS требуется crossmnt в /etc/exports, несовместимо с CentOS 6
- убраны параметры модуля: l2arc_nocompress, zfetch_block_cap, zfs_arc_num_sublists_per_state, zfs_disable_dup_eviction, zfs_vdev_mirror_switch_us, zil_slog_limit, zfs_arc_p_aggressive_disable (не менял)
- добавлены параметры модуля zfs:
  - dbuf_cache_hiwater_pct, dbuf_cache_lowater_pct, dbuf_cache_max_bytes, dbuf_cache_max_shift
  - dmu_object_alloc_chunk_shift - CPU-specific allocator grabs 2^N objects at once
  - zfs_per_txg_dirty_frees_percent - Percentage of dirtied blocks from frees in one TXG
  - send_holes_without_birth_time - Ignore hole_birth txg for zfs send
  - zfs_dmu_offset_next_sync - Enable forcing txg sync to find holes
  - zfetch_max_distance - Max bytes to prefetch per stream
  - zfs_abd_scatter_enabled - Toggle whether ABD allocations must be linear
  - zfs_abd_scatter_max_order - Maximum order allocation used for a scatter ABD
  - zfs_arc_dnode_limit - Minimum bytes of dnodes in ARC
  - zfs_arc_dnode_limit_percent - Percent of ARC meta buffers for dnodes
  - zfs_arc_dnode_reduce_percent - Percentage of excess dnodes to try to unpin
  - zfs_arc_meta_limit_percent - Percent of arc size for arc meta limit
  - zfs_arc_pc_percent - Percent of pagecache to reclaim ARC to
  - zfs_compressed_arc_enabled - Disable compressed arc buffers
  - zfs_deadman_checktime_ms - Dead I/O check interval in milliseconds
  - zfs_sync_taskq_batch_pct - Percentage of CPUs to run an IO worker thread
  - zfs_delete_blocks - Delete files larger than N blocks asynchronously
  - zfs_free_bpobj_enabled - Enable processing of the free_bpobj
  - zfs_metaslab_segment_weight_enabled - Enable segment-based metaslab selection
  - zfs_metaslab_switch_threshold - Metaslab selection max buckets before switching
  - zfs_multihost_fail_intervals - Max allowed period without a successful mmp write
  - zfs_multihost_history - Historical statistics for last N multihost writes
  - zfs_multihost_import_intervals - Number of zfs_multihost_interval periods to wait for activity
  - zfs_multihost_interval - Milliseconds between mmp writes to each leaf
  - zfs_multilist_num_sublists - Number of sublists used in each multilist
  - zfs_vdev_mirror_non_rotating_inc - Non-rotating media load increment for non-seeking I/O's
  - zfs_vdev_mirror_non_rotating_seek_inc - Non-rotating media load increment for seeking I/O's
  - zfs_vdev_mirror_rotating_inc - Rotating media load increment for non-seeking I/O's
  - zfs_vdev_mirror_rotating_seek_inc - Rotating media load increment for seeking I/O's
  - zfs_vdev_mirror_rotating_seek_offset - Offset in bytes from the last I/O to trigger seek increment
  - zfs_vdev_queue_depth_pct - Queue depth percentage for each top-level vdev
  - zfs_vdev_raidz_impl - Select RAIDZ implementation
  - zil_slog_bulk - Limit in bytes slog sync writes per commit
  - zio_dva_throttle_enabled - Throttle block allocations in the ZIO pipeline
  - zvol_request_sync - Synchronously handle bio requests
  - zvol_threads - Max number of threads to handle I/O requests
  - zvol_volmode - Default volmode property value
  - spl_max_show_tasks - Max number of tasks shown in taskq proc
  - spl_panic_halt - Cause kernel panic on assertion failures
Изменения в версии 0.7.13 отноительно 0.7
- vdev_id
- адаптация к новым ядрам до 4.19
- исправление ошибок
Изменения в версии 0.8 относительно 0.7.13
- spl включён в состав zfs
- шифрование томов и файловых систем (по умолчанию aes-256-ccm, zfs load-key), пересылка без дешифрования (zfs send -w)
- удаление single устройства из пула (zpool remove), фоновое копирование данных на оставшиеся устройства
- контрольные точки (zpool checkpoint) для пула в целом
- использование TRIM и UNMAP (zpool trim, свойство autotrim)
- инициализация (заполнение шаблоном) пула (zpool initialize)
- квотирование по проектам (zfs project, zfs projectspace)
- zpool program (?)
- Direct IO (флаг разрешается, но данные буферизуются в ARC как и прежде)
- совместимость с python3
- библиотека Pyzfs
- при проверке и лечении данные обходятся последовательно (метаданные как раньше) (проверено - скорость 900 МБ/сек)
- данные некоторых видов (метаданные, DDT, маленькие файлы) можно размещать на выделенных устройствах (SSD) типа special или dedup
- кеширование метаданных для zfs list
- выделение места может быть распараллелено (allocators)
- команда resilver дожидается завершения предыдущего лечения
- новые блоки ZIL создаются не дожидаясь записи предыдущих на устройство
- расширена поддержка QAT (Intel C62x, Atom C3000, SHA256, AES-GCM)
- arcstat.py, arc_summary.py и dbufstat.py переименованы в arcstat, arc_summary и dbufstat
- объявлены устаревшими свойство dedupditto и "zfs send -D"
- удалена опция zfs_vdev_elevator модуля zfs
- Modify sharenfs=on default behavior
- возможность удаления снимков, смонтированных по NFS
- ZPOOL_IMPORT_UDEV_TIMEOUT_MS
Изменения в версии 0.8.5 отноительно 0.8
- адаптация к новым ядрам до 5.8
- исправление ошибок
Изменения в версии 2.0.6 (ядра до 5.14) относительно 0.8.5
- слияние кодовой базы Linux и FreeBSD
- выборочный send/receive ("zfs redact; zfs send --redact")
- L2ARC переживает импорт/перезагрузку (не нужно его разогревать)
- последовательный доступ при лечении при изменении конфигурации - быстро восстанавливается избыточность и запускается scrub ("zpool {replace|attach} -s")
- использование zstd для сжатия
- ожидание завершения фоновых операций: zpool wait; zfs wait
- продолжение незавершённой пересылки: zfs send --saved
- переименование без размонтирования (zfs rename -u)
- выгрузка ключей шифрования: zfs umount -u
- копирование закладок
- сервис systemd zfs-mount-generator
- модуль pam автоматически загружает ключи шифрования
- отменена дедупликация пр пересылке: "zfs send -D" (преобразование дедуплицированного потока: "zstream redup")
- отменены избыточные копии многократных дублей (свойство dedupditto)
- убран параметр модуля ядра zfs_vdev_scheduler
- значения параметров модулей ядра по умолчанию "должны удовлетворить всех"
- параметр модуля ядра l2arc_mfuonly (кешировать только MFU из ARC в L2ARC), l2arc_meta_percent, l2arc_rebuild_blocks_min_l2size, l2arc_rebuild_enabled, l2arc_trim_ahead
- параметр модуля ядра metaslab_unload_delay, metaslab_unload_delay_ms
- параметр модуля vdev_file_logical_ashift, vdev_file_physical_ashift (ashift для устройств на базе файла)
- параметр модуля ядра zfetch_max_idistance (максимальное количество байт для предзагрузки косвенно на поток)
- параметр модуля ядра zfs_arc_evict_batch_limit
- параметр модуля ядра zfs_allow_redacted_dataset_mount
- параметр модуля ядра zfs_arc_evict_batch_limit, zfs_arc_eviction_pct, zfs_arc_shrinker_limit
- параметр модуля ядра zfs_fallocate_reserve_percent
- параметр модуля ядра zfs_history_output_max (сколько писать в журнал)
- параметр модуля ядра zfs_initialize_chunk_size
- параметр модуля ядра zfs_keep_log_spacemaps_at_export
- параметр модуля ядра zfs_livelist_condense_*
- параметр модуля ядра zfs_livelist_max_entries, zfs_livelist_min_percent_shared
- параметр модуля ядра zfs_max_async_dedup_frees, zfs_max_log_walking, zfs_max_logsm_summary_length, zfs_max_nvlist_src_size (максимальное количество байт в исходном nvlist)
- параметр модуля ядра zfs_unflushed_log_block_max, zfs_unflushed_log_block_min, zfs_unflushed_log_block_pct, zfs_unflushed_max_mem_amt, zfs_unflushed_max_mem_ppm
- параметр модуля ядра zfs_metaslab_max_size_cache_sec, zfs_metaslab_mem_limit, zfs_min_metaslabs_to_flush, zfs_vdev_default_ms_shift
- параметр модуля ядра zfs_rebuild_max_segment
- параметр модуля ядра zfs_recv_queue_ff, zfs_recv_write_batch_size, zfs_send_no_prefetch_queue_ff, zfs_send_no_prefetch_queue_length, zfs_send_queue_ff
- параметр модуля ядра zfs_vdev_max_auto_ashift, zfs_vdev_min_auto_ashift
- параметр модуля ядра zfs_vdev_rebuild_max_active, zfs_vdev_rebuild_min_active
- параметр модуля ядра zfs_zevent_retain_expire_secs, zfs_zevent_retain_max
- параметр модуля ядра zfs_async_block_max_blocks переименован в zfs_max_async_dedup_frees
- в связи с заменой алгоритмов выделения памяти удалены параметры модуля ядра spl_kmem_cache_expire, spl_kmem_cache_obj_per_slab_min и spl_kmem_cache_kmem_limit
Изменения в версии 2.1.2 (ядра до 5.15) относительно 2.0.6
- Distributed Spare RAID - резерв места для горячей замены встроен в рабочие диски, значительно ускоряется восстановление RAIDZ, увеличивается размер минимально используемого блока (zpool create имя-пула draid...)
- свойство compatibility позволяет затребовать фичи для совместимости в будущем
- сбор статистики в формате InfluxDB (zpool influxdb)
- предотвращение автоматического монтирования (zpool create -u)
- хранение в истории времени выполнения команд для анализа производительности (zpool history -i)
- предупреждение о неоптимальном размере блока (zpool status)
- при пересылке игнорировать отсутствующие снимки (zfs send --skip-missing)
- переименование файловой системы без размонтирования (опять?)(zfs rename -u)
- реструкторизована документация
- статистика о ZFS томах в /proc/diskstats
- vdev_id адаптирован к multipath
- опции "-a" и "-p" утилиты arcstat
- переименование acltype=posixacl в acltype=posix
- адаптация поведения к горячему подключению ЦП и памяти
- удалены параметры модуля ядра zfs_zevent_cols, zfs_zevent_console
- параметр модуля ядра zfs_embedded_slog_min_ms
- параметр модуля ядра zfs_metaslab_find_max_tries
- параметр модуля ядра zfs_metaslab_try_hard_before_gang
- параметр модуля ядра zfs_rebuild_scrub_enabled
- параметр модуля ядра zfs_rebuild_vdev_limit
- параметр модуля ядра zfs_traverse_indirect_prefetch_limit
- параметр модуля ядра zio_taskq_batch_tpq
Изменения в версии 2.1.7 (ядра до 6.0) относительно 2.1.2
- исправление ошибок (в частности, zfs_arc_meta_limit_percent=100)
- оптимизация
- изменение настроек: уменьшение количества потоков arc_prune
- dracut.zfs.7 и множество изменений в dracut
- параметр модуля ядра zfs_btree_verify_intensity
- параметр модуля ядра zfs_vdev_open_timeout_ms
- по умолчанию, per_txg_dirty_frees_percent=30
- дополнительные опции redundant_metadata: none
Изменения в версии 2.1.15 (ядра до 6.7) относительно 2.1.7
- цвета в zfs diff, zfs list, zpool iostat
- удалена поддержка python 2 и 3.5 (2.1.10)
- исправление ошибок (в частности, mountpoint=legacy)
- параметры модуля ядра default_bs (ddt_zap_default_bs?) и default_ibs
- лимит предзагрузки на уровне системы (имя ?)
- предзагрузка слияния deadlists
- монтирование .zfs/snapshot обычным пользователям
- по умолчанию, zfs_rebuild_vdev_limit = 64MB, zfs_scan_vdev_limit = 16MB
- исправление ошибки, приводящей к порче данных (coreutils 9) - вряд ли воспроизводится в RHEL7 и 8
- показать vdevs с проблемами: zpool status -e
- управление питанием слота в zpool (но как?)
Изменения в версии 2.2.0 (ядра до 6.5) относительно 2.1.14
- адаптивная очистка ARC (данные и метаданные отдельно, минимизация ручных настроек); удалёны параметры модуля zfs: zfs_arc_meta_limit_percent, zfs_arc_meta_prune
- клонирование блоков (быстрая ручная дедупликация) и реализация reflink на этом (новый cp)
- улучшенный журнал ошибок scrub (имена затронутых файловых систем, снимков и клонов)
- перепроверка ошибок scrub и попытка восстановления (zpool scrub -e)
- технологии для контейнерной изолиции - поддержка overlayfs, renameat, отображение идентификаторов пользователей (idmapping), делегирование пространства имйн
- контрольная сумма BLAKE3 (тестирование производительности в /proc/spl/kstat/zfs/chksum_bench), на больших блоках на порядок быстрее sha256-generic при надёжности на уровне SHA-3, по умолчанию размер - 256 бит
- аппаратное ускорение SHA2
- оптимизация вычисления контрольных сумм Edon-R
- лечение данных (не метаданных) при send/receive -c
- эвристика, позволяющая zstd не сжимать несжимаемые данные (zstd_earlyabort_pass=1, zstd_abort_size=131072)
- пользовательские свойства vdev и zpool
- установка и чтение свойств vdev
- улучшения предзагрузки
- новые параметры модулей: dbuf_metadata_cache_shift, dbuf_mutex_cache_shift, ddt_zap_default_bs, ddt_zap_default_ibs, metaslab_force_ganging_pct, metaslab_preload_limit, metaslab_preload_pct, spa_upgrade_errlog_limit, zap_micro_max_size, zfs_arc_meta_balance, zfs_blake3_impl
Изменения в версии 2.2.2 (ядра до 6.6) относительно 2.2.0
- исправление ошибки, приводящей к порче данных (клонирование блоков) путём отключения по умолчанию
- возможность отключения BRT (Block Reference Table), используется для клонирования блоков
- исправление ошибки, приводящей к порче данных (coreutils 9) - вряд ли воспроизводится в RHEL7 и 8
Изменения в версии 2.2.4 (ядра до 6.8) относительно 2.2.2
- zfs list -t {fs|vol}
- показать vdevs с проблемами: zpool status -e
- управление питанием слота в zpool (но как?)
- исправление ошибок (клонирование)
- свойство набора данных - prefetch
- zfs mount -R (иерархическое монтирование)
Изменения в версии 2.2.7 (ядра от 4.18 до 6.12) относительно 2.2.4
- сообщать ядру о размере памяти, которую можно отозвать
Изменения в версии 2.3.0 (ядра от 4.18 до 6.12) относительно 2.2.7
- возможность добавить блочное устройство в RAIDZ группу vdev без остановки работы
- режим быстрой дедупликации (фича fast_dedup, новые таблицы в дополнение к существующим; свойства пула: dedupcached, dedup_table_quota и dedup_table_size; параметры модуля: dmu_ddt_copies, zfs_dedup_log_flush_rounds_max, zfs_dedup_log_flush_min_time_ms, zfs_dedup_log_flush_entries_min, zfs_dedup_log_flush_flow_rate_txgs, zfs_dedup_log_txg_max, zfs_dedup_log_mem_max, zfs_dedup_log_mem_max_percent, zfs_sap_shrink_enabled)
- Direct IO (в обход ARC); параметры модуля: zfs_dio_enabled, zfs_dio_write_verify_events_per_second
- ключ -j (вывод в JSON)
- размер имён файлов увеличен c 255 до 1023 байт
- параметры модуля: raidz_expand_max_copy_bytes, raidz_expand_max_reflow_bytes, raidz_io_aggregate_rows, spa_cpus_per_allocator, spa_num_allocators, zap_shrink_enabled, zfetch_max_idistance, zfs_active_allocator, zfs_arc_shrinker_seeks, zfs_resilver_defer_percent, zfs_scrub_after_expand, zfs_snapshot_no_setuid, zfs_vdev_direct_write_verify, zio_taskq_write_tpq
- удалён параметр модуля zfetch_array_rd_sz
- изменены парамытры модуля zfs_arc_shrinker_limit, zfs_bclone_enabled, zfs_vdev_disk_classic, zio_taskq_write

Ссылки

Сквозная целостность данных в ZFS
Aaron Toponce ZFS Administration 2012 12 04
ZFS Best Practices Guide
ZFS Evil Tuning Guide
Oracle Solaris ZFS Administration Guide June 2013
Внутренности ZFS (ZoL), апрель 2016
OpenZFS
OpenZFS (сайт не найден)
Performance and Tuning (OpenZFS)
ZFS on Linux
ZFS RAIDZ stripe width, or: How I Learned to Stop Worrying and Love RAIDZ (как в реальности раскладываются блоки данных, чётности и заполнителя)
Things Nobody Told You About ZFS
Про ZFS в блоге Chris Siebenmann
ZFS Block Allocation (2006)
Карты пространства (2008), англ.
ZFS fundamentals: transaction groups
ZFS Deduplication
List of known SMR drives (SMR диски (черепичная запись) не предназначены для ZFS)
Архитектура ZFS (2019)
быстрая дедупликация в версии 2.3.0 (уполовинена потребность в slab для динамического списка записей транзакции, квота на размер DDT, чистка DDT, миграции нет)

Карта сайта

News

Автора!

Bog BOS: Файловая система ZFS