В ZFS появилась дедупликация (Новости LinuxForum)

allez · Сообщение **allez** » 03.11.2009 19:57

В файловой системе ZFS появился встроенный механизм дедупликации.

Дедупликация - это процесс устранения повторяющихся данных. Он выполняется, как правило, на уровне файлов, блоков или байтов. Наборы данных хранятся в некоторой таблице, связывающей контрольные суммы этих данных с местом их хранения и счетчиком ссылок. Если вы попытаетесь сохранить еще одну копию существующих данных, код дедупликации вместо того, чтобы отвести ей место на диске, просто увеличит счетчик ссылок для существующих данных. При хранении часто реплицируемых данных, что типично для бэкап-серверов, образов виртуальных машин и репозиториев исходного кода, дедупликация может уменьшить потребление дискового пространства не просто "на столько-то процентов", а "в разы".

Ссылка на оригинал: http://www.osnews.com/story/22425/ZFS_Gets_Deduplication

04.11.2009 00:13

а такое где-нибудь уже было?

Bluetooth · Сообщение **Bluetooth** » 04.11.2009 03:54

Ленивая Бестолочь писал(а): ↑
04.11.2009 00:13
а такое где-нибудь уже было?

На уровне фс- подозреваю, что нет. А на более высоких уровней - было. Дедупликация используется в системе бэкапа backuppc, которую я везде использую.

Loky · Сообщение **Loky** » 04.11.2009 12:22

Дедубликацию данных в бекапе только ленивый не делает. Но все по разному. Обычно дедубликация в бекапе означает существенное (-дцатикратное) сокращение объёмов данных, но за счёт дикой нагрузки на ЦП и память.
Есть только пара нормальных промышленных решений где дедубликация реализована по-человечески, всё остальное, включая потуги симантека - пляски на маркетинге.
Что касается дедубликация файловой системы, то на мой взгляд не всё так однозначно хорошо. Здоровая избыточность данных на ФС жизненно необходима. Потерь одного блока от одного файла - ничего страшного. А потеря одного блока от пары тысяч файлов - серьёзная головная боль и повод идти в аптеку за вазелином.
В конце концов надо определить для себя ключевой критерий - надёжность хранения или экономия места на носителях.
Ну а дедубликация на уровне файла уже давно реализована - в файловых системах со сжатием.

allez · Сообщение **allez** » 04.11.2009 15:30

Loky писал(а): ↑
04.11.2009 12:22
Что касается дедубликация файловой системы, то на мой взгляд не всё так однозначно хорошо.
. . .
В конце концов надо определить для себя ключевой критерий - надёжность хранения или экономия места на носителях.

Это точно. Пока что в голову приходит лишь один вариант использования дедупликации ФС без особого вреда - на узлах HA-кластера, в силу идентичности хранящихся на них данных. Там избыточность и так уже достигнута.

unixforum.org

В ZFS появилась дедупликация (Новости LinuxForum)

В ZFS появилась дедупликация

Re: В ZFS появилась дедупликация

Re: В ZFS появилась дедупликация

Re: В ZFS появилась дедупликация

Re: В ZFS появилась дедупликация