Bog BOS: Сетевая файловая система GlusterFS

Последние изменения:
2025.01.24: sysadmin: rsyslog (статья и пример центрального коллектора переработаны)
2024.11.22: sysadmin: systemd-journald (централизованное хранение)

Последнее изменение файла: 2016.02.26
Скопировано с www.bog.pp.ru: 2025.08.17

Bog BOS: Сетевая файловая система GlusterFS

Сетевая файловая система GlusterFS разработана компанией Gluster Inc. Агрегирует файловые пространства (bricks, кирпичи) большого количества серверов в единую распределённую файловую систему (volume, том). Это объектная (не блочная) распределённая файловая система без центрального сервера метаданных. Для соединения можно использовать TCP/IP или Infiniband RDMA (OFED 1.4 для версии 3.0, OFED 1.5 для версии 3.1; кстати, в RHEL5.5 - OFED 1.4). Эффективна при десятках узлов. Файлы можно восстанавливать из локального файлового пространства (если не использовались тома с расщеплением). Реализована на прикладном уровне (нет модулей ядра, требуется поддержка FUSE для клиентов, ядро 2.6.18 и выше для 2.0, ядро 2.6.27 и выше для версии 3.0.2; FUSE появился только в RHEL5.4). Проблема одновременного доступа к данным решается на уровне подлежащей файловой системы (к каждой файловой системе обращается ровно один сервер). Можно использовать различные подлежащие файловые системы (рекомендуется ext3 или ext4). Постоянно работающая фоновая служба самопроверки. Имеется библиотека libglusterfs, которую можно встроить в приложение для прямого обращения к серверу, минуя уровень файловой системы и FUSE. Сервер может работать под Linux, FreeBSD, OpenSolaris, Solaris или Mac OS X. Клиент может работать под Linux с поддержкой FUSE. При отсутвии клиента (не Linux, нет FUSE) можно воспользоваться специальной версией NFS сервера (FUSE в 3.0 - не держит нагрузку, встроенный в 3.1), модулем для Apache и т.д.. Лицензия - GPLv3 (GNU Affero General Public License). Версия 3.2.4 от сентября 2011 (3.0.6 от октября 2010; 2.0.9 от декабря 2009; 1.3.12 от сентября 2008; в EPEL5 - 2.0.8, в EPEL4 - 1.3.12).

Ежегодная плата за подписку (от $1500 за сервер). NAS Gluster Storage Platform объединяет ОС, GlusterFS, установщик и веб-интерфейс настройки (включая доступ по NFS и CIFS). Настораживает обилие в документации маркетингового булшита вместо вменяемого описания архитектуры системы, которое необходимо для оптимизации конфигурации (причём часть документации исчезала прямо по ходу чтения). Зато есть официальный перевод на русский язык. Неприятно поразила несовместимость клиентов 2.0.9 и серверов 2.0.8 (не работала команда ls). Отсутствует сбор статистики (iostat), динамическое управление кешированием и readahead-ом (readahead в некоторых ситуациях - например, bonnie++ rewrite - просто безумствует забивая канал). Нет привычного по NFS мягкого монтирования в фоне, аккуратной обработки ситуации с временным пропаданием сервера, стандартных параметров монтирования. Подозреваю, что на доработку обещанных функций (replicate) уйдёт несколько лет (в 3.1 реализована такая более простая для отладки возможность, как миграция) и только потом начнут настраивать производительность, затем улучшать эксплуатационные характеристики, затем вспомнят про безопасность (кстати, в версии 3.1 исчезли имена и пароли) и только потом этим можно будет пользоваться. А пока можно использовать (не версию 3.1.0!) для кластерного /tmp ;)

Компания Red Hat купила компанию Gluster Inc. осенью 2011 и выпустила продукт Red Hat Storage Software Appliance.

Архитектура 3.0

Сетевая файловая система GlusterFS состоит из следующих компонент:

подлежащие файловые системы (ext3, ext4, ZFS, xfs, jfs), которые называются томами хранения (brick, кирпич)
сервер glusterfsd на каждом хосте с подлежащей файловой системой; сервер может обслуживать несколько томов хранения; исходный том хранения (файловая система) может быть экспортирован непосредственно или преобразован с помощью цепочки модулей-трансляторов (оптимизация, добавление функций); конечным модулем цепочки является транспортный модуль - TCP/IP (порт 6996), unix-сокет, ib-verb, ib-sdp
клиент glusterfs, обеспечивающий с помощью FUSE доступ к экспортированным томам (файловым системам) всем процессам на своём хосте; импортированный с помощью транспортного модуля том может использоваться непосредственно или преобразован с помощью цепочки модулей-трансляторов (сборка составных томов, оптимизация); собранный том (volume) может быть экспортирован как единое целое
библиотека libglusterfs, которую можно встроить в приложение для прямого обращения к серверу, минуя уровень файловой системы и FUSE (настройки в /etc/booster.fstab, переменная окружения GLUSTERFS_BOOSTER_FSTAB, предзагрузка разделяемой библиотеки LD_PRELOAD=/usr/lib64/glusterfs/glusterfs-booster.so)
оптимизированный сервер NFS (unfs3), который может импортировать тома и раздавать их NFS клиентам

Архитектура 3.1

Сетевая файловая система GlusterFS состоит из следующих компонент:

подлежащие файловые системы (ext3, ext4, ZFS, xfs, jfs), которые называются томами хранения (brick, кирпич)
сервер glusterfsd на каждом хосте с подлежащей файловой системой; сервер может обслуживать несколько томов хранения; исходный том хранения (файловая система) может быть экспортирован непосредственно или преобразован с помощью цепочки модулей-трансляторов (оптимизация, добавление функций); конечным модулем цепочки является транспортный модуль - TCP/IP (порты c 24007 по 24009+число_томов-1), unix-сокет, ib-verb, ib-sdp; встроенный сервер NFSv3 (только tcp, несовместим с ядерным сервером NFS - требуется выгрузить модули nfs и lockd, а lockd нужен NFS-клиенту), который может раздавать тома NFS клиентам (порты с 38465 по 38465+число_серверов-1 и 111);
демон glusterd на каждом сервере управляет своими glusterfsd, общается с соседями и управляется командой gluster
утилита командной строки gluster позволяет динамически изменять конфигурацию через интерфейс с glusterd
клиент glusterfs, обеспечивающий с помощью FUSE доступ к экспортированным томам (файловым системам) всем процессам на своём хосте; импортированный с помощью транспортного модуля том может использоваться непосредственно или преобразован с помощью цепочки модулей-трансляторов (сборка составных томов, оптимизация); собранный том (volume) может быть экспортирован как единое целое
библиотека libglusterfs, которую можно встроить в приложение для прямого обращения к серверу, минуя уровень файловой системы и FUSE (настройки в /etc/booster.fstab, переменная окружения GLUSTERFS_BOOSTER_FSTAB, предзагрузка разделяемой библиотеки LD_PRELOAD=/usr/lib64/glusterfs/glusterfs-booster.so)

Модули (трансляторы)

Модули (трансляторы) выстраиваются в цепочку обслуживания, на входе и выходе транслятора - том. Самый нижний модуль сервера (типа storage/posix) указывает на подлежащую файловую систему. Описание томов (модулей) на сервере обычно находится в файле /etc/glusterfs/glusterfsd.vol (/etc/glusterd/ для версии 3.1). Файл имеет построчный формат, комментарии начинаются с '#'. Описание модуля начинается с команды volume и указанием имени получающегося тома, тип и подтип модуля (через '/') указываются командой type, ссылки на подлежащие тома указываются командой subvolumes с указанием имён томов нижнего уровня, параметры модуля задаются командами option, завершается описание модуля командой end-volume. Имена регистрозависимые. Подтома должны быть описаны до своего использования. Возможно написание единого конфигурационного файла как для сервера, так и для клиента. В версии 3.1 разбит на /etc/glusterd/vols/имя-тома/info, /etc/glusterd/vols/имя-тома/имя-тома-fuse.vol, /etc/glusterd/nfs/nfs-server.vol, /etc/glusterd/vols/имя-тома/имя-тома.имя-сервера.имя-кирпича.vol.

Модули:

storage (описание подлежащей файловой системы на сервере)
- posix (обеспечивает POSIX семантику при работе с файлами подлежащей файловой системы)
  - option directory имя-каталога (корень подлежащей файловой системы)
  - option o-direct {disable|enable} (возможность посылать запросы в обход кеша VFS; глючит в 3.0.3)
  - option export-statfs-size {yes|no} (для решения проблем с df при описании нескольких томов под одной точкой монтирования)
  - option mandate-attribute {on|off} (требовать от подлежащей файловой системы поддержки расширенных атрибутов)
  - option span-devices число (0; обслуживать указанное количество файловых систем, подмонтированных внутрь подлежащей файловой системы)
  - option background-unlink {no|yes} (удаление больших файлов в фоновом режиме)
- bdb (каталоги хранятся в подлежащей файловой системе, файлы каталога хранятся в формате Berkley DB (key - имя файла, value - содержимое файла) в файле storage_db.db в каталоге, отсутствует в пакете)
  - option directory имя-каталога (корень подлежащей файловой системы)
  - option logdir имя-каталога (журналы БД)
  - option errfile имя-файла (для сообщений об ошибках)
  - option dir-mode формат-chmod (возвращается при запросе)
  - option file-mode формат-chmod (возвращается при запросе)
  - option page-size байт (д.б. равно размеру блока подлежащей файловой системы)
  - option open-db-lru-limit число (количество открытых БД на каталог?)
  - option lock-timeout (максимальное время блокировки замка)
  - option checkpoint-interval секунд (меньше - медленная работа, больше - увеличение потерь)
  - option transaction-timeout (максимальное время блокировки транзакции)
  - option mode {cache|persistent} (persistent гарантирует восстановление после сбоя
  - option access-mode {btree|hash}
features
- locks (для сервера, обеспечивает семантику POSIX блокировок на сервере, над модулем типа storage)
  - option mandatory-locks {off|on}
  - option trace {off|on}
- filter (testing/features/filter; для сервера, трансляция uid между сервером и клиентом, отсутствует в пакете)
  - option root-squashing {off|on}
  - option read-only {off|on}
  - option fixed-uid идентификатор-пользователя (в качестве владельца всех файлов представляется uid)
  - option fixed-gid идентификатор-группы (в качестве группы владельца всех файлов представляется gid)
  - option translate-uid исходный-интервал=результат[,исходный-интервал=результат...] (преобразование uid клиента)
  - option translate-gid исходный-интервал=результат[,исходный-интервал=результат...] (преобразование gid клиента)
  - option filter-uid идентификатор-пользователя (блокировать доступ пользователей с указанным uid)
  - option filter-gid идентификатор-группы (блокировать доступ пользователей с указанным gid)
- trash (testing/features/trash; для сервера, мусорная корзина)
  - option trash-dir имя-каталога
- path-converter (testing/features/path-converter; для сервера, преобразование имён файлов)
  - option start-offset число
  - option end-offset число
  - option replace-with строка
- quota (для сервера, ограничение для подлежащей фаловой системы)
  - option min-free-disk-limit процентов
  - option refresh-interval секунд
  - option disk-usage-limit байт
performance (ускорители и оптимизаторы)
- io-threads (выполняется на сервере, многопоточность и асинхронность операций ввода-вывода; над модулем типа storage или features)
  - option thread-count количество-потоков
  - option autoscaling {off|on}
  - option min-threads число
  - option max-threads число
- write-behind (выполняется на клиенте, над модулем типа protocol или cluster или performance; запросы на запись собираются в пакеты и выполняются асинхронно)
  - option cache-size|window-size размер (от 512KB до 1GB; размер буфера на каждый дескриптор файла)
  - option flush-behind {off|on} (асинхронные close/flush - ускорение работы с большим количеством маленьких файлов)
  - option enable-O_SYNC {off|on} (отключение модуля для прямых запросов)
  - option enable-trickling-writes {on|off} (уменьшает агрессивность агрегирования запросов)
- read-ahead (выполняется на клиенте, над модулем типа protocol или cluster или performance; предварительная загрузка последовательности блоков )
  - option page-size байт (128KB? или от подтома; отсутстует в 2.0.9)
  - option page-count число (2; от 1 до 16; максимальное число, достигается при последовательном чтении)
  - option force-atime-update {off|on} (эквивалент "mount -o noatime")
- io-cache (выполняется на клиенте, над модулем типа protocol или cluster или performance; кеширование чтения)
  - option priority шаблон-имени-файла:приоритет[,шаблон-имени-файла:приоритет...] (наименьший приоритет - 0)
  - option cache-size размер (64MB; от 4MB до 6GB)
  - option cache-timeout|force-revalidate-timeout секунд (1; от 0 до 60; если страница старее указанного, то проверяется её адекватность - триггер для безумного readahead)
- quick-read (выполняется на клиенте, над модулем типа protocol или cluster или performance; ускоряет чтение маленьких файлов - при open, файл читается целиком и закрывается)
  - option max-file-size размер (64KB)
  - option cache-timeout секунд (1)
- stat-prefetch (выполняется на клиенте, над модулем типа protocol или cluster или performance; ускорение чтения оглавления каталогов - readdir+stat; в версии 2.0.9 ошибка под нагрузкой (копирование каталога и du с другого узла):
```
[fuse-bridge.c:581:fuse_getattr] glusterfs-fuse: 55211101: GETATTR 82 (fuse_loc_fill() failed)
[inode.c:868:inode_path] inode: possible infinite loop detected, forcing break. name=((null))
```
- testing/performance/symlink-cache
protocol (обеспечивает интерфейс между клиентом и сервером)
- server (над модулем типа performance, storage или features)
  - option transport-type tcp|ib-verb|unix|ib-sdp
  - option transport.address-family {inet|inet6|inet/inet6|inet6/inet|unix|inet-sdp}
  - option transport.window-size байт
  - option transport.socket.bind-address IP-адрес (для tcp или ib-sdp)
  - option transport.socket.listen-port номер-порта (6996; для tcp или ib-sdp)
  - option transport.socket.connect-path ?
  - option transport.socket.bind-path ?
  - option transport.socket.listen-path ?
  - option transport.socket.nodelay {on|off} (?)
  - option transport.ib-verbs.device-name имя-устройства
  - option transport.ib-verbs.port физический-порт
  - option transport.ib-verbs.remote-port номер-порта (6997; TCP порт для входящих соединений)
  - option transport.ib-verbs.mtu байт
  - option transport.ib-verbs.listen-port номер-порта (6996)
  - ?option transport.ib-verbs.bind-address адрес
  - ?option transport.ib-verbs.work-request-send-size байт
  - option transport.ib-verbs.work-request-send-count число
  - ?option transport.ib-verbs.work-request-recv-size байт
  - option transport.ib-verbs.work-request-recv-count число
  - option transport.ib-verbs.connect-path ?
  - option transport.ib-verbs.bind-path ?
  - option transport.ib-verbs.listen-path ?
  - option [transport.socket.listen-path имя-файла (для unix)
  - option auth.addr.имя-нижнего-модуля.{allow|reject} шаблон-IP-адресов[,шаблон-IP-адресов...] (порт клиента должен быть меньше 1024)
  - option auth.login.имя-нижнего-модуля.allow имя-пользователя[,имя-пользователя...]
  - option auth.login.имя-пользователя.password пароль (передаётся в незашифрованном виде)
  - option client-volume-filename имя-файла (?)
  - option inode-lru-limit число (?)
  - option verify-volfile-checksum {off|on} (?)
- client (описание тома на сервере)
  - option transport-type tcp|tcp/client|ib-verb|unix|socket|ib-sdp (TCP/IP или InfiniBand)
  - option transport.address-family {inet|inet6|inet/inet6|inet6/inet|unix|inet-sdp}
  - option remote-host имя-сервера
  - option [transport.socket.]remote-port номер-порта (6996 для tcp, 6997 для ib-verbs)
  - option remote-subvolume имя-тома (сервер может экспортировать несколько томов)
  - option transport.socket.nodelay on|off (?)
  - option transport.ib-verbs.remote-port номер-порта (6996)
  - ?option transport.ib-verbs.work-request-send-size байт
  - option transport.ib-verbs.work-request-send-count число
  - ?option transport.ib-verbs.work-request-recv-size байт
  - option transport.ib-verbs.work-request-recv-count число
  - ?option transport-timeout секунд
  - option frame-timeout секунд (30)
  - option ping-timeout секунд (10; по-моему, маловато, при записи 1 в /proc/sys/vm/drop_caches на сервере, получается пауза и в ответ:
```
E [client-protocol.c:457:client_ping_timer_expired] s75-x5412e: 
  Server 192.168.172.75:6996 has not responded in the last 10 seconds, disconnecting.
E [saved-frames.c:165:saved_frames_unwind] s75-x5412e: forced unwinding frame type(1) op(WRITE)
W [fuse-bridge.c:888:fuse_err_cbk] glusterfs-fuse: 4811772: FLUSH() ERR => -1 (Transport endpoint is not connected)
...
N [client-protocol.c:6438:notify] s75-x5412e: disconnected
 соединение восстанавливается, но приложение уже упало
```
  - option username имя-пользователя
  - option password пароль
cluster (сборка составных томов, выполняется на клиенте над модулем типа protocol)
- distribute (DHT, распределяет файлы по подлежащим томам с помощью хеш-функции (подозрительная функция), обещание: можно добавлять новые подтома к существующей системе; требуется поддержка расширенных атрибутов на подлежащей системе; информация о количестве томов привязывается к каталогу при его создании, т.е. имевшиеся каталоги будут использовать только старые тома и только файлы из вновь созданных каталогов попадут на новый сервер; реальность: после добавления тома файлы не находятся, если не включить lookup-unhashed, после его включения действительно в старых каталогах файлы попадают только в старые тома, оглавление в новом томе создаётся только после сканирования файлов, (однако: "find: WARNING: Hard link count is wrong for ...: this may be a bug in your filesystem driver"; расширенные атрибуты: glusterfs.dht.linkto, posix-ИмяТома.gen)
  - option lookup-unhashed {off|on} (при поиске файлов просматривать все тома, а не только "правильный")
  - option min-free-disk процентов (10%; создаются ссылки на реальное местонахождение; ограничение на неснижаемый остаток места в подлежащей файловой системе проверяется при создании файлов, в дальнейшем файл не перемещается; если приложение (например, bonnie++) сразу создаёт все файлы нулевого размера (естественно на это место есть), а потом наращивает их, то будут проблемы)
  - option unhashed-sticky-bit {yes|no} (?)
- nufa (Non Uniform File Access, распределяет файлы по подлежащим томам, предпочитая локальные подтома; доступ к локальным подтомам идёт напрямую, минуя FUSE и сервер; имя подтома должно совпадать с именем хоста; безтомные узлы могут использовать тоже самое описание тома заменив nufa на distribute и убрав local-volume-name)
  - option local-volume-name имя-предпочитаемого-подлежащего-тома ()
  - option lookup-unhashed {on|off} (при поиске файлов просматривать все тома, а не только "правильный")
  - option min-free-disk процентов (10%; создаются ссылки на реальное местонахождение; см. distibute)
- replicate (afr, сетевой RAID-1, самоизлечение поднявшихся подтомов при первом обращении (ls -lRa); требуется поддержка расширенных атрибутов на подлежащей системе и транслятор posix-locks; не стоит полагаться на это: файлы пропавшие с первого подтома невидимы и к ним никто не обращается и не лечит, проблемы с жёсткими ссылками)
  - option read-subvolume имя-предпочитаемого-подлежащего-тома (по умолчанию - балансировка нагрузки)
  - option favorite-child имя-предпочитаемого-подлежащего-тома (используется как главный при лечении после разбиения кластера (split brain))
  - option data-self-heal {on|off} (лечить ли данные)
  - option metadata-self-heal {on|off} (лечить ли метаданные)
  - option entry-self-heal {on|off} (лечить ли записи в каталогах)
  - option data-change-log {on|off} (хранить журнал транзакций с помощью расширенных атрибутов для выбора главной копии, иначе выбирать случайным образом)
  - option metadata-change-log {on|off} (хранить журнал транзакций с помощью расширенных атрибутов для выбора главной копии, иначе выбирать случайным образом)
  - option entry-change-log {on|off} (хранить журнал транзакций с помощью расширенных атрибутов для выбора главной копии, иначе выбирать случайным образом)
  - option data-lock-server-count число (1; число серверов, хранящих блокировку)
  - option metadata-lock-server-count число (1; число серверов, хранящих блокировку)
  - option entry-lock-server-count число (1; число серверов, хранящих блокировку)
- stripe (файл разбивается на кусочки равного размера, кусочки распределяются по подтомам; файлы на подлежащих файловых системам выглядят "как настоящие", но хранятся с дырками; требуется поддержка расширенных атрибутов на подлежащей системе; добавить новый том не удастся!)
  - option block-size байт (128KB)
  - option use-xattr {on|off}
- ha (testing/cluster/ha; High Availability, переключение на запасной интерфейс)
- unify (legacy/cluster/unify; устарел, предлагается использовать distribute; распределяет файлы по подтомам в соответствии с выбранным планировщиком; дополнительный подтом хранит полное дерево имён каталогов и файлов, чтобы не искать по всем подтомам)
  - option namespace имя-подлежащего-тома (здесь будет храниться полное дерево имён каталогов и файлов; здесь должно быть inode-ов для всех; не должен совпадать с объединяемыми подтомами)
  - option self-heal {foreground|background|off} (при первом обращении к файлу)
  - option optimist {yes|no}
  - option scheduler alu|rr|random|nufa|switch (планировщик выбирающий подтом для размещения содержимого создаваемого файла)
    - Random - случайный выбор; опции: random.limits.min-free-disk
    - RR - файлы размещаются на узлах по очереди (у каждого клиента своя!); опции: rr.limits.min-free-disk, rr.read-only-subvolumes, rr.refresh-interval
    - ALU (Adaptive Least Usage) - учёт активности операций (read-usage, write-usage), количества открытых файлов (open-files-usage), заполненого и доступного локального дискового пространства (disk-usage), скорости вращения дисков и т.п. (disk-speed-usage); опции: alu.order, alu.read-only-subvolumes, alu.limits.min-free-disk, alu.limits.max-open-files, alu.подтип.entry-threshold, alu.подтип.exit-threshold (тут есть, что покрутить!)
    - NUFA - создаваемые на этом сервере файлы размещаются на локальном хранилище; опции: nufa.local-volume-name, nufa.limits.min-free-disk
    - Switch - распределение файлов по хранилищам в зависимости от имён файлов; опции: switch.case (шаблон имён, двоеточие, список подтомов), switch.read-only-subvolumes
- map (testing/cluster/map; ?)
  - option map-directory строка
  - option default-volume имя-подлежащего-тома

Утилита командной строки (версия 3.1)

Утилита gluster позволяет настраивать и управлять томами GlusterFS без остановки работы. Имеет интерактивный режим. Команды (журнал в /etc/glusterd/.cmd_log_history):

help
quit
peer help
peer probe сервер # подсоединить сервер к пулу; из-за путанницы с именами серверов лучше использовать IP адреса
peer status # выдать список серверов пула
peer detach сервер
volume help
volume create имя-тома [replica число-копий] [stripe число-расщеплений] [transport tcp | rdma] сервер:имя-кирпича ...
volume rename имя-тома новое-имя-тома
volume add-brick имя-тома [replica число-копий] [stripe число-расщеплений] сервер:имя-кирпича ...
volume replace-brick имя-тома сервер:имя-кирпича новый-сервер:новый-кирпич {start | pause | commit | abort | status} # требуется наличие FUSE на том сервере, с которого выдаётся команда; каковы последствия abort?
volume remove-brick имя-тома [replica число-копий] [stripe число-расщеплений] сервер:имя-кирпича ... # данные теряются
volume delete имя-тома # предварительно деактивировать том
volume start имя-тома # активировать том
volume rebalance имя-тома {start | stop | status} # требуется после добавления или удаления кирпичей
volume stop имя-тома
volume info {имя-тома | all}
volume set имя-тома опция значение # действует на активные тома, опции:
- auth.allow (шаблон допустимых IP адресов
- auth.reject
- performance.cache-min-file-size
- performance.cache-max-file-size
- performance.cache-refresh-timeout (от 1 до 60 секунд)
- performance.cache-size (от 4MB до 6GB)
- performance.write-behind-window-size
- cluster.stripe-block-size
- cluster.self-heal-window-size (от 1 до 1024)
- cluster.read-subvolume (предпочтительный том хранения для чтения)
- network.frame-timeout (от 6 до 86400)
- network.ping-timeout (от 1 до 1013)
- diagnostics.brick-log-level {DEBUG|WARNING|ERROR|CRITICAL|NONE|TRACE}
- diagnostics.client-log-level {DEBUG|WARNING|ERROR|CRITICAL|NONE|TRACE}
- diagnostics.latency-measurement {yes|no}
- diagnostics.dump-fd-stats {yes|no}
- rpc-auth.addr.namelookup {on | off}
- nfs3.export-volumes {on | off}
volume log filename имя-тома каталог # журналы сервера; каталог должен существовать
volume log locate имя-тома # выдать имя каталога с журналами
volume log rotate

replica - позволяет создавать тома, данные которых хранятся на 2 серверах, что позволяет продолжать обслуживание при падении одного из серверов (а brain split?).

stripe - позволяет распределять части одного файла по нескольким серверам для ускорения чтения и записи. Эффективен только при работе с очень большими файлами.

Конфигурационные файлы, созданные (отредактированные) вручную более не поддерживаются, хотя и не запрещаются.

Генерация конфигурации с помощью glusterfs-volgen

С версии 2.0.9 поддерживаются только конфигурации, созданные с помощью glusterfs-volgen (результат помещается в текущий каталог в файл ИмяТома-ТипТранспорта.vol для клиентов и ИмяХоста-ИмяТома-export.vol для сервера):

--name=имя-тома (обязательный параметр, используется только для генерации имён файлов конфигурации)
--transport={tcp|ib-verbs} [--ibdev=номер] (по умолчанию - tcp)
--port=номер-порта (по умолчанию - 6996)
--auth=? (по умолчанию - *)
--raid={0|1} (RAID-0 хочет 4 тома)
--nfs (ускоритель NFS)
--cifs [--username=имя-пользователя] [--guest] (ускоритель CIFS)
список серверов в формате "ИмяСервера:ЭкспортныйКаталог"

Сервер GlusterFS glusterfsd (3.0)

Сервер GlusterFS glusterfsd. Журнал в /var/log/glusterfs/-etc-glusterfs-glusterfsd.vol.log.

Сервер glusterd (3.1)

Сервер GlusterFS glusterd. Ключи:

--log-file=имя-файла (/usr/local/var/log/glusterfs/glusterfs.log?)
--log-level={TRACE | DEBUG | NORMAL | WARNING | ERROR | CRITICAL}
--no-daemon

Ускоритель NFSv3

Ускоритель NFSv3 (пакет unfs3) - работает в пространстве пользователя в обход FUSE, что позволяет избежать двойного перемещения между пространствами ядра и пользователя. Набор возможностей урезан относительно стандарта: при создании объекта нельзя указать владение, размер и время создания; не реализованы функции блокировки (клиент должен монтировать с ключом nolock); только режим nohide.

Ключи unfsd:

-e имя-файла (использовать вместо /etc/exports; по умолчанию secure, fixed, ro и root_squash; поддерживаемые опции:
- root_squash
- no_root_squash
- all_squash
- no_all_squash
- ro
- rw
- anonuid=число
- anongid=число
- secure
- insecure
- fixed (держать файлы открытыми между запросами)
- removable (не держать файлы открытыми, чтобы мобильный диск можно было отсоединить)
- password=пароль (mount имя-хоста:@password:пароль/точка-монтирования)
-T (тестировать файл с описанием экспорта)
-u (использовать непривилегированный порт для сервера вместо 2049)
-n порт (использовать указанный порт для сервера NFS)
-m порт (использовать указанный порт для сервера монтирования; по умолчанию - тот же 2049)
-t (только TCP)
-p (не регистрироваться через portmap; клиент должен явно указать порты с помощью mountport и port)
-l IP-адрес (привязываться к указанному адресу)
-d (отладочный режим)
-r (борьба с проблемой запуска исполняемых файлов, у которых отсутствуют права на чтение)
-i pid-файл

Сигналы:

TERM или INT - отпроситься у portmap и завершить работу
HUP - прочитать заново файл с описанием экспорта и /etc/passwd
USR1 - выдать статистику кеширования на syslog

Под большой нагрузкой зависает клиент (RHEL4) - не клиент NFS, а хост целиком.

Модуль fuse из дистрибутива RHEL5.4 не поддерживает ре-экспорт в NFS (--disable-direct-io-mode?).

Монтирование через FUSE

Монтирование файловой системы на клиентском хосте с помощью FUSE - /sbin/mount.glusterfs, т.е. монтировать надо командой mount с ключом "-t glusterfs"

Ключи:

--help
--volfile=имя-файла-описания-томов (/etc/glusterfs/glusterfs.vol)
--log-file=имя-файла (/var/log/glusterfs/glusterfs.log)
--log-level={DEBUG|WARNING|ERROR|CRITICAL|NONE} ( WARNING)
--volume-name=имя-тома (по умолчанию берётся самый верхний)

Опции монтирования для /etc/fstab (модуль fuse не грузится автоматически; надо в /sbin/mount.glusterfs вставить /sbin/modprobe fuse):

log-level={DEBUG|WARNING|ERROR|CRITICAL|NONE}
log-file=имя-файла (/var/log/glusterfs/glusterfs.log)
transport={tcp|ib-verb}
direct-io-mode={enable|disable}
volume-name=имя-тома (по умолчанию берётся самый верхний)
volume-id=?

Опции монтирования FUSE (/sbin/mount.glusterfs - скрипт на bash, параметры для FUSE из /etc/fstab не передаются; можно использовать mount -o remount?):

kernel_cache (опасно, не сбрасывать кеш файла при открытии)
direct_io (не кешировать файловую систему в ядре, программы не запускаются)
max_readahead=байт (128KB)

Развёртывание распределённого хранилища для временных файлов (RHEL5.4/CentOS5.4)

Требуется обеспечить узлы счётного кластера общим файловым пространством для хранения временных файлов с автоматическим распределением нагрузки по узлам хранения данных. Имеется 4 сервера с излишками дискового пространства (серверов имеется больше, но предполагается, что извлекаемого с 4 хостов дискового пространства и скорости будет достаточно, а связывать все узлы кластера в неразъёмную конструкцию нежелательно). Половина клиентских хостов не может быть непосредственным клиентом glusterfs (Solaris, RHEL4), так что потребуется ускоритель NFS. Ситуация осложняется разбиением узлов кластера на 2 территории, связанные медленным (1 Гбит) каналом.

Установка сервера:

создать логический том /dev/system/globaltemppart
```
lvcreate --name globaltemppart --size 160G system /dev/sdb2
```

создать локальную файловую систему ext4 с меткой globaltemppart

mke4fs -j -L globaltemppart -m 0 -v /dev/system/globaltemppart
tune2fs -i 0 -c 0 /dev/system/globaltemppart

создать каталог /export/globaltemppart и внести в /etc/fstab запись о монтировании
```
LABEL=globaltemppart /export/globaltemppart ext4 defaults 1 2
```
установить пакеты glusterfs-common.x86_64, glusterfs-server.x86_64 (тянут libibverbs, openib) для версии 3.0 или gluster-core.x86_64 для версии 3.1 (содержит и клиента)

настроить экспортируемый том в /etc/glusterfs/glusterfsd.vol

volume posix-globaltemppart
  type storage/posix
  option directory /export/globaltemppart
  option background-unlink yes
end-volume

volume locks-globaltemppart
  type features/locks
# не работает
  option mandatory-locks on
  subvolumes posix-globaltemppart
end-volume

volume brick-globaltemppart
  type performance/io-threads
  option thread-count 8
  subvolumes locks-globaltemppart
end-volume

volume server-tcp
  type protocol/server
  option transport-type tcp
  option transport.socket.listen-port 6996
  option transport.socket.nodelay on
  option auth.login.brick-globaltemppart.allow имя-пользователя
  option auth.login.имя-пользователя.password Пароль
  subvolumes brick-globaltemppart
end-volume

отредактировать права доступа:
```
chmod 400 /etc/glusterfs/glusterfsd.vol
```
запустить сервиса glusterfsd (убедиться, что он стартует при перезагрузке: chkconfig --list glusterfsd)
проверить журнал сервера /var/log/glusterfs/etc-glusterfs-glusterfsd.vol.log

Установка FUSE клиентов (в том числе и на серверах):

установить пакеты с сайта glusterfs-common.x86_64, glusterfs-client.x86_64 (тянет libibverbs.x86_64, openib)
mkdir /etc/glusterfs

настроить импортируемый составной том в /etc/glusterfs/globaltemp-tcp.vol (на всех клиентах должна быть одинаковая последовательность узлов):

volume node1
    type protocol/client
    option transport-type tcp
    option remote-host node1
    option transport.socket.nodelay on
    option transport.remote-port 6996
    option ping-timeout 30
    option username имя-пользователя
    option password пароль
    option remote-subvolume brick-globaltemppart
end-volume

...

volume cluster-0
    type cluster/distribute
    option min-free-disk 5%
#
#    type cluster/stripe
#    option block-size 128KB
#
#    type cluster/nufa
#    option local-volume-name ближний-узел
#    option min-free-disk 5%
    subvolumes node1 node2 node3 node4
end-volume

volume readahead
    type performance/read-ahead
    option page-count 1
    option force-atime-update on
    subvolumes cluster-0
end-volume

volume writebehind
    type performance/write-behind
    option cache-size 1GB
    option flush-behind on
    option enable-O_SYNC on
    option enable-trickling-writes off
    subvolumes readahead
end-volume

volume iocache
    type performance/io-cache
    option cache-size 1GB
    option cache-timeout 1
    subvolumes writebehind
end-volume

volume quickread
    type performance/quick-read
    option cache-timeout 1
    option max-file-size 64kB
    subvolumes iocache
end-volume

volume statprefetch
    type performance/stat-prefetch
    subvolumes quickread
end-volume

отредактировать права доступа:
```
chmod 400 /etc/glusterfs/globaltemp-tcp.vol
```
создать каталог /globaltemp

настроить автоматическое монтирование каталога в /etc/fstab

/etc/glusterfs/globaltemp-tcp.vol /globaltemp   glusterfs  rw,nosuid,nodev,exec,nouser,async,_netdev  0  0

modprobe fuse (и обеспечить загрузку его до монтирования при старте системы в /etc/rc.d/init.d/netfs; размонтирование реализовано неправильно)
смонтировать каталог
```
mount /globaltemp
```
проверить журнал клиента /var/log/glusterfs/globaltemp.log
проверить журналы на серверах /var/log/glusterfs/etc-glusterfs-glusterfsd.vol.log
занести glusterfs в /etc/updatedb.conf в список исключений (заодно nfs и nfs4)
проверить работоспособность перезагрузки клиента
что будет с клиентами при перезагрузке сервера?

Установка ускорителей NFS:

установить ускоритель NFS из пакета unfs3
отредактировать /etc/unfs3exports
запустить сервер unfsd: unfsd -e /etc/unfs3exports -m 4002
обеспечить автоматический запуск при загрузке

Установка NFS клиентов:

настроить автоматическое монтирование каталога в /etc/fstab (для Solaris /etc/vfstab и без nolock)
```
node1:/globaltemp /globaltemp nfs tcp,bg,hard,intr,rw,nosuid,nodev,exec,auto,nouser,async,_netdev,rsize=32768,wsize=32768,nolock 0 0
```
смонтировать каталог
```
mount /globaltemp
```
проверить содержимое

Развёртывание распределённого хранилища для временных файлов (RHEL5.5/CentOS5.5) на GlusterFS 3.1

Требуется обеспечить узлы счётного кластера общим файловым пространством для хранения временных файлов с автоматическим распределением нагрузки по узлам хранения данных. Имеется 2 сервера с излишками дискового пространства (для начала). Ситуация осложняется разбиением узлов кластера на 2 территории, связанные медленным (1 Гбит) каналом вместо InfiniBand.

Установка сервера:

создать логический том /dev/system/globaltemppart
```
lvcreate --name globaltemppart --size 160G system /dev/sdb2
```

создать локальную файловую систему ext4 с меткой globaltemppart

mke4fs -j -L globaltemppart -m 0 -v /dev/system/globaltemppart
tune2fs -i 0 -c 0 /dev/system/globaltemppart

создать каталог /export/globaltemppart и внести в /etc/fstab запись о монтировании
```
LABEL=globaltemppart /export/globaltemppart ext4 defaults 1 2
```
установить пакет glusterfs-core.x86_64 (содержит прямого клиента) и при необходимости пакет glusterfs-rdma (тянет libibverbs, openib)
отредактировать ключи glusterd (--log-file=/var/log/glusterfs/daemon.log; mkdir /var/log/glusterfs)
запустить демон glusterd (service glusterd start) и обеспечить его автоматический старт (chkconfig glusterd on)

создание пула серверов (выполнять на хосте сервер1):

gluster peer probe IP-сервер2
gluster peer probe IP-сервер3
...
gluster peer probe IP-серверN
gluster peer status

создание распределённого тома

gluster volume create globaltemp [transport tcp | rdma] IP-сервер1:/export/globaltemppart IP-сервер2:/export/globaltemppart
gluster volume info
gluster volume start globaltemp
gluster volume info
#gluster volume set globaltemp network.ping-timeout 30
#gluster volume set globaltemp performance.write-behind-window-size 1GB
#gluster volume set globaltemp performance.cache-size 1GB
#gluster volume set globaltemp performance.cache-max-file-size 64KB
#gluster volume set globaltemp performance.cache-refresh-timeout 1

проверить журналы /var/log/glusterfs/daemon.log, /var/log/glusterfs/nfs.log, /var/log/glusterfs/bricks/*.log

том сразу доступен по NFS (требуется сервис portmap/rpcbind на сервере/клиенте и rpc.statd на клиенте) при обращении к любому серверу (права доступа - '*')

Установка NFS клиентов (распределить клиентов по серверам):

настроить автоматическое монтирование каталога в /etc/fstab (для Solaris /etc/vfstab и без nolock)

сервер[:порт]:/globaltemp /globaltemp nfs tcp,bg,hard,intr,rw,nosuid,nodev,exec,auto,nouser,async,_netdev,rsize=32768,wsize=32768,nolock 0 0

смонтировать каталог
```
mount /globaltemp
```
проверить содержимое

Установка FUSE клиентов (в том числе и на серверах):

установить пакеты glusterfs-fuse и glusterfs-core с сайта и при необходимости пакет glusterfs-rdma (тянет libibverbs.x86_64, openib)
modprobe fuse (и обеспечить загрузку его до монтирования при старте системы в /etc/rc.d/init.d/netfs; размонтирование реализовано неправильно)
создать каталог /globaltemp

настроить автоматическое монтирование каталога в /etc/fstab

имя-сервера:/globaltemp /globaltemp   glusterfs  rw,nosuid,nodev,exec,nouser,async,_netdev  0  0

смонтировать каталог
```
mount /globaltemp
```
проверить журналы на серверах /var/log/glusterfs/bricks/*.log
занести glusterfs в /etc/updatedb.conf в список исключений (заодно nfs и nfs4)
проверить работоспособность перезагрузки клиента
что будет с клиентами при перезагрузке сервера?

Изменения

Изменения в 3.1.1 относительно 3.1.0

32-битные номера файлов для NFS клиентов - nfs.enable-ino32
транслятор stat-prefetch
блокировки не работает для NFS - при монтировании необходимо использовать "-o nolock"

Изменения в 3.1.0 относительно 3.0.6

не годится даже под /tmp (зависает на df)
динамическое изменение конфигурации без размонтирования томов у клиентов и остановки серверов (glusterd): добавление тома (ошибки будут поправлены в 3.1.1), удаление тома, миграция (не всегда работает), изменение балансировки
Gluster Console Manager для управления томами из командной строки
встроенная поддержка NFSv3
все клиенты и серверы должны быть версии 3.1
конфигурация и тома можно взять от версии 3.0 (но нежелательно)

Изменения в 3.0.6 относительно 2.0.8

структура подлежащей файловой системы совместима с версией 2.0 (до 3.0.3?)
протокол между клиентом и сервером несовместим с версией 2 (вплоть до падения сервера)
самолечивание открытых реплицированных файлов при сбое сервера
автоматический выбор алгоритма самолечения: полный, дифференциальный (особенно полезен для образов ВМ)
самолечение в фоновом режиме
транслятор Stat-prefetch предзагружает каталоги (включая stat)
транслятор Quick-read ускоряет чтение большого количества маленьких файлов
улучшение транслятора I/O cache при работе с большими файлами
уменьшение загрузки ЦП при работе транслятора FUSE, не требуется наличие libfuse
сигнал USR1 вызывает запись отладочной информации в файл /tmp/glusterdump.НомерПроцесса
генератор описаний томов volgen (ручное написание конфигурации более не поддерживается)
нет поддержки POSIX mandatory locking
опция cache-size транслятора quick-read (5.0.5)
tcp keepalive (5.0.5)
опция use-readdirp (5.0.6)

Bog BOS: Сетевая файловая система GlusterFS