Дедупликация данных (Linux)

Любые разговоры которые хоть как-то связаны с тематикой форума

Модератор: Модераторы разделов

BratSinot
Сообщения: 812
ОС: Slackware64

Дедупликация данных

Сообщение BratSinot »

Доброго времени суток!

Вообщем вопрос насчет файловых систем с дедупликацией данных в Linux (ZFS и прочие костыли не предлагать) или чего-то, что применимо к существующим файловым системам.

И да, желательно чтобы эту ФС можно было использовать в корне.
Спасибо сказали:
Аватара пользователя
SinClaus
Сообщения: 1952
Статус: Мучитель Мандривы
ОС: Arch,BSD

Re: Дедупликация данных

Сообщение SinClaus »

Что бы этот вопрос не задать Гуглю? Или даже Вики. А оттуда ссылка вот сюда.
Спасибо сказали:
BratSinot
Сообщения: 812
ОС: Slackware64

Re: Дедупликация данных

Сообщение BratSinot »

SinClaus писал(а):
02.12.2012 17:27
Что бы этот вопрос не задать Гуглю? Или даже Вики. А оттуда ссылка вот сюда.

Потому-что что-то может и не нагуглиться.
Спасибо сказали:
Аватара пользователя
Ленивая Бестолочь
Бывший модератор
Сообщения: 2760
ОС: Debian; gentoo

Re: Дедупликация данных

Сообщение Ленивая Бестолочь »

BratSinot писал(а):
02.12.2012 16:04
ZFS и прочие костыли не предлагать

я может быть ошибаюсь, и ситуация изменилась, но, когда я последний раз озабачивался этим вопросом, я пришел к выводу, что единственное, что можно использовать в корне, и что вообще работает не через fuse под линукс с дедупликацией - это zfs :-)
Солнце садилось в море, а люди с неоконченным высшим образованием выбегали оттуда, думая, что море закипит.
Спасибо сказали:
Аватара пользователя
alv
Бывший модератор
Сообщения: 7275
Статус: Пенсионер в законе
ОС: Cintu

Re: Дедупликация данных

Сообщение alv »

Ленивая Бестолоч... писал(а):
04.12.2012 02:55
что вообще работает не через fuse под линукс с дедупликацией - это zfs :-)

ТС обозвал это костылём :)
Правда, если с ним согласиться, то всё остальное будет инвалидной коляской
что, конечно, куда прогрессивней костыля
Спасибо сказали:
Аватара пользователя
Bluetooth
Сообщения: 4395
Статус: Блюзовый
ОС: Debian Squeeze amd64

Re: Дедупликация данных

Сообщение Bluetooth »

Интересно, а много там в корне надедублицируется данных? :)

ЛБ, напомни, что ты через fuse использовал для дедупликации данных?
Спасибо сказали:
BratSinot
Сообщения: 812
ОС: Slackware64

Re: Дедупликация данных

Сообщение BratSinot »

alv писал(а):
04.12.2012 03:26
Ленивая Бестолоч... писал(а):
04.12.2012 02:55
что вообще работает не через fuse под линукс с дедупликацией - это zfs :-)

ТС обозвал это костылём :)

Я обозвал ZFS On Linux костылем (а как иначе SPL назвать?).
Да и потом, ZFS это такое месиво. Делаем раздел, ставим тип Solaris/Solaris2, на разделе создаем пул, в пуле создаем виртуально устройство, с этим устройством еще что-то делаем, и монтируется оно хитро. Мне больше по душе классический подход.
Спасибо сказали:
pelmen
Сообщения: 1268
ОС: debian

Re: Дедупликация данных

Сообщение pelmen »

BratSinot писал(а):
04.12.2012 15:04
alv писал(а):
04.12.2012 03:26

ТС обозвал это костылём :)

Я обозвал ZFS On Linux костылем

echo $ТС
BratSinot
Спасибо сказали:
Аватара пользователя
Ленивая Бестолочь
Бывший модератор
Сообщения: 2760
ОС: Debian; gentoo

Re: Дедупликация данных

Сообщение Ленивая Бестолочь »

Bluetooth писал(а):
04.12.2012 03:45
ЛБ, напомни, что ты через fuse использовал для дедупликации данных?

lessfs например :-)

BratSinot писал(а):
04.12.2012 15:04
Делаем раздел, ставим тип Solaris/Solaris2, на разделе создаем пул, в пуле создаем виртуально устройство, с этим устройством еще что-то делаем, и монтируется оно хитро

да в целом это равносильно подходу LVM + любая "нормальная" ФС. но SLP конечно да.
монтировать можно и через fstab, если хочется.

alv писал(а):
04.12.2012 03:26
всё остальное будет инвалидной коляской

вот это точно.
Солнце садилось в море, а люди с неоконченным высшим образованием выбегали оттуда, думая, что море закипит.
Спасибо сказали:
Аватара пользователя
alv
Бывший модератор
Сообщения: 7275
Статус: Пенсионер в законе
ОС: Cintu

Re: Дедупликация данных

Сообщение alv »

BratSinot писал(а):
04.12.2012 15:04
Да и потом, ZFS это такое месиво.

Не в обиду Вам будет сказано, но месиво - Ваши представления о ZFS on Linux (или о ZFS вообще?).
BratSinot писал(а):
04.12.2012 15:04
Делаем раздел

совсем не обязательно, более того, рекомендуется деать пул на raw-устройствах
BratSinot писал(а):
04.12.2012 15:04
ставим тип Solaris/Solaris2

Это Вы от одного умника-убунтовца услышали?
во-первых, если пул на устройствах, а не на разделах - никакого типа у них нет
во-вторых, у Брайна ни слова не сказано о типе раздела
в-третьих, я делал пулы и на разделах с ID 83 - вреда ни малейшего
BratSinot писал(а):
04.12.2012 15:04
на разделе создаем пул

а создание, скажем, softRAID Level# на разделах не смущает?
BratSinot писал(а):
04.12.2012 15:04
в пуле создаем виртуально устройство

это устройство называется файловой системой ZFS
или при создании softRAID или LVM можно обойтись без создания файловой системы?
BratSinot писал(а):
04.12.2012 15:04
с этим устройством еще что-то делаем

страшно сказать, но с этим устройством работаем
типа данные на него пишем, например, парнуху всякую
потому что
BratSinot писал(а):
04.12.2012 15:04
и монтируется оно хитро.

да, монтируется оно настолько хитро, что не монтируется вообще
то есть монтируется, конечно, но так незаметненько...
если очень хочется - можно, конечно, как заметил Ленивая Бестолоч... и через fstab монтировать, но это - исключительно тем, кому
BratSinot писал(а):
04.12.2012 15:04
больше по душе классический подход.

А вообще, лучше один раз проделать, что сто раз пересказывать. И тогда Вы увидите, что на деле всё это действительно не сложнее создания каталогов в обычной файловой системе. Как и было обещано создателями.
Во всяком случае, куда проще, чем создание и особенно управление LVM.
Спасибо сказали:
Аватара пользователя
alv
Бывший модератор
Сообщения: 7275
Статус: Пенсионер в законе
ОС: Cintu

Re: Дедупликация данных

Сообщение alv »

Ленивая Бестолоч... писал(а):
04.12.2012 17:27
да в целом это равносильно подходу LVM + любая "нормальная" ФС

кроме того, что это гораздо проще :)
Спасибо сказали:
Аватара пользователя
alv
Бывший модератор
Сообщения: 7275
Статус: Пенсионер в законе
ОС: Cintu

Re: Дедупликация данных

Сообщение alv »

Bluetooth писал(а):
04.12.2012 03:45
Интересно, а много там в корне надедублицируется данных?

Видимо, речь идёт о решении
для предприятий с виртуальной средой

которым не жалко приобрести
Data Domain за $ 2 миллиарда

но хочется чуток сэкономить.
Цитаты из статьи по ссылке SinClaus, за которую ему, кстати, вери гран мерси.
Спасибо сказали:
BratSinot
Сообщения: 812
ОС: Slackware64

Re: Дедупликация данных

Сообщение BratSinot »

alv писал(а):
04.12.2012 18:01
Не в обиду Вам будет сказано, но месиво - Ваши представления о ZFS on Linux (или о ZFS вообще?).

В целом. Может то, что они там наделали (я про все тот-же пул и все что с ним связано) кому то и надо, но лично для меня это нагромождение.

alv писал(а):
04.12.2012 18:01
совсем не обязательно, более того, рекомендуется деать пул на raw-устройствах

Круто, а с другими разделами мне как быть? Выкинуть?

alv писал(а):
04.12.2012 18:01
Это Вы от одного умника-убунтовца услышали?

Сам видел, когда через "format->fdisk" разделы ковырял.

alv писал(а):
04.12.2012 18:01
во-первых, если пул на устройствах, а не на разделах - никакого типа у них нет
во-вторых, у Брайна ни слова не сказано о типе раздела

"format->fdisk->Type" с вами не согласится.

alv писал(а):
04.12.2012 18:01
в-третьих, я делал пулы и на разделах с ID 83 - вреда ни малейшего

Можно много чего делать.

alv писал(а):
04.12.2012 18:01
И тогда Вы увидите, что на деле всё это действительно не сложнее создания каталогов в обычной файловой системе. Как и было обещано создателями.
Во всяком случае, куда проще, чем создание и особенно управление LVM.

Во первых, я ставил OpenIndiana и поднимал ZFS (правда в VBox, но я в нем делал, чтобы научится с их fdisk'ом работать и на винчестере разделы не похерить).
Во вторых, мне LVM, RAID и другие подобные вещи не нужны (в середине 0-х стояла RAID железка, но потом убрал). У меня нет машин с десятком винчестеров, чтобы их объединять.

Вообщем понятно, ничего нет путного. Только если плагин к Reiser4 навалять :D Правда там tail-packing не очень работает (как и ccreg40), поэтому смысла в Reiser4 нет.

Короче, тема исчерпана.
Спасибо сказали:
Аватара пользователя
alv
Бывший модератор
Сообщения: 7275
Статус: Пенсионер в законе
ОС: Cintu

Re: Дедупликация данных

Сообщение alv »

BratSinot писал(а):
04.12.2012 20:58
Короче, тема исчерпана.
Go to the top of the pageReport Post

После этого поста - пожалуй...
Спасибо сказали:
Аватара пользователя
Ленивая Бестолочь
Бывший модератор
Сообщения: 2760
ОС: Debian; gentoo

Re: Дедупликация данных

Сообщение Ленивая Бестолочь »

ну в общем факт такой: надёжных и красивых, и при этом не zfs систем для linux с дедуплекацией - нет.
есть минимум две, которые работают через fuse.
мне лично SLP кажется меньшим злом, чем fuse.
Солнце садилось в море, а люди с неоконченным высшим образованием выбегали оттуда, думая, что море закипит.
Спасибо сказали:
Аватара пользователя
rm_
Сообщения: 3340
Статус: It's the GNU Age
ОС: Debian

Re: Дедупликация данных

Сообщение rm_ »

Вообщем понятно, ничего нет путного.

А чем OpenDedup не "путное"? Вроде бы это и есть "та самая" дедуплицирующая ФС, самая лучшая из свободных и на GNU/Linux.
Ссылку на её обзор дали в первом же ответе, собсс-но какие ещё вопросы могут быть?
Я тестировал, работает. Из минусов - потребление ОЗУ, кажется до гигабайта на терабайт данных на диске, но похоже иначе просто никак.
И подозреваю возможны вопросы с "использовать в корне" - но нахрена козе боян? Если у вас сотни виртуалок или NFS-загружающихся систем, то какая разница, что в корне у сервера (занимающем какие-нибудь 5-10 ГБ), где это всё хранится. Под хранение - отдельный раздел, и OpenDedup на нём.
Спасибо сказали:
BratSinot
Сообщения: 812
ОС: Slackware64

Re: Дедупликация данных

Сообщение BratSinot »

rm_ писал(а):
05.12.2012 08:35
Если у вас сотни виртуалок или NFS-загружающихся систем, то какая разница, что в корне у сервера (занимающем какие-нибудь 5-10 ГБ), где это всё хранится. Под хранение - отдельный раздел, и OpenDedup на нём.

Да не держу я сервер! На своей рабочей машине хочу (и не спрашивайте зачем).

rm_ писал(а):
05.12.2012 08:35
А чем OpenDedup не "путное"? Вроде бы это и есть "та самая" дедуплицирующая ФС, самая лучшая из свободных и на GNU/Linux.

FUSE и Java.
Спасибо сказали:
Аватара пользователя
rm_
Сообщения: 3340
Статус: It's the GNU Age
ОС: Debian

Re: Дедупликация данных

Сообщение rm_ »

На своей рабочей машине хочу

На одной машине профит будет изчезающе мал, гораздо больше вы получите от BTRFS со сжатием и при умелом использовании снапшотов.
Спасибо сказали:
Аватара пользователя
Ленивая Бестолочь
Бывший модератор
Сообщения: 2760
ОС: Debian; gentoo

Re: Дедупликация данных

Сообщение Ленивая Бестолочь »

rm_ писал(а):
05.12.2012 09:23
гораздо больше вы получите от ZFS со сжатием, дедупликацией и при умелом использовании снапшотов.

(я шучу)
Солнце садилось в море, а люди с неоконченным высшим образованием выбегали оттуда, думая, что море закипит.
Спасибо сказали:
Аватара пользователя
rm_
Сообщения: 3340
Статус: It's the GNU Age
ОС: Debian

Re: Дедупликация данных

Сообщение rm_ »

Ленивая Бестолочь писал(а):
05.12.2012 10:23
rm_ писал(а):
05.12.2012 09:23
гораздо больше вы получите от ZFS со сжатием, дедупликацией и при умелом использовании снапшотов.

(я шучу)

Я понимаю, но костылить ZFS (вкорячивая мутные третьесторонние патчи, с неясной надёжностью и будущим) вообще не вариант,
вот будет под GPL и в майнлайне, тогда и поговорим.
А btrfs есть и работает уже сейчас, к тому же она гораздо проще (что судя по сообщениям выше, немаловажно для автора).
Спасибо сказали:
Аватара пользователя
alv
Бывший модератор
Сообщения: 7275
Статус: Пенсионер в законе
ОС: Cintu

Re: Дедупликация данных

Сообщение alv »

BratSinot писал(а):
05.12.2012 08:57
и не спрашивайте зачем

Вообще-то, вопрос так и просится.
Потому как когда just for fun - то не выспрашивают по форумам, а копают, разбираются, а потом с восторгом рассказывают: я, блин, это сделал.
rm_ писал(а):
05.12.2012 10:43
вот будет под GPL и в майнлайне, тогда и поговорим.

не будет, но
rm_ писал(а):
05.12.2012 10:43
костылить ZFS

за этими костылями, кроме Брайана, стоит американский Средмаш. За btrfs не стоит уже никто - даже лично товарищ Крис.
rm_ писал(а):
05.12.2012 10:43
тогда и поговорим.

так что говорить надо здесь и сейчас
Спасибо сказали:
Аватара пользователя
rm_
Сообщения: 3340
Статус: It's the GNU Age
ОС: Debian

Re: Дедупликация данных

Сообщение rm_ »

alv писал(а):
05.12.2012 11:57
rm_ писал(а):
05.12.2012 10:43
вот будет под GPL и в майнлайне, тогда и поговорим.

не будет, но
rm_ писал(а):
05.12.2012 10:43
костылить ZFS

за этими костылями, кроме Брайана, стоит американский Средмаш. За btrfs не стоит уже никто - даже лично товарищ Крис.

Так или иначе обе принадлежат Ораклу, при желании которого вполне могла бы и "быть". Но такого желания нету, и в качестве решения для GNU/Linux предлагается BTRFS.
Крис собсс-но тоже продолжает её пилить, перейдя вместе с ещё одним разработчиком в FusionIO (которая, соответствуя своему названию, тоже вовсё не портянковязанием занимается). А ещё в майл-листе постоянный поток патчей от миллионов китайцев из (внезапно) Fujitsu.
Спасибо сказали:
Аватара пользователя
Bluetooth
Сообщения: 4395
Статус: Блюзовый
ОС: Debian Squeeze amd64

Re: Дедупликация данных

Сообщение Bluetooth »

BratSinot писал(а):
05.12.2012 08:57
и не спрашивайте зачем
...потому, что внятного ответа на этот вопрос нет :)

"Дайте мне вот эту нехреновую хрень! И не спрашивайте зачем она мне! Я ж и сам не знаю!" :)
Спасибо сказали:
BratSinot
Сообщения: 812
ОС: Slackware64

Re: Дедупликация данных

Сообщение BratSinot »

rm_ писал(а):
05.12.2012 09:23
На одной машине профит будет изчезающе мал, гораздо больше вы получите от BTRFS со сжатием и при умелом использовании снапшотов.

rm_ писал(а):
05.12.2012 10:43
А btrfs есть и работает уже сейчас, к тому же она гораздо проще (что судя по сообщениям выше, немаловажно для автора).

Я в ФС не разбираюсь, но я придерживаюсь мнения Шишкина о btrfs. И только не надо про всяких Red Hat и им подобных говорить, они btrfs продвигают только потому, что на Linux альтернативы нет.

alv писал(а):
05.12.2012 11:57
Вообще-то, вопрос так и просится.
Потому как когда just for fun - то не выспрашивают по форумам, а копают, разбираются, а потом с восторгом рассказывают: я, блин, это сделал.

У меня слишком мало опыта, чтобы JFF без форумов делать :) Вон так и не получилось полностью завести InitNG или хоть как-то завести runit. Хотя потрошил iso Slackware, чтобы поставить на Reiser4 из коробки (правда на форуме все равно спросил, но там только натолкнули на initrd).

Bluetooth писал(а):
05.12.2012 21:12
...потому, что внятного ответа на этот вопрос нет :)
"Дайте мне вот эту нехреновую хрень! И не спрашивайте зачем она мне! Я ж и сам не знаю!" :)

На самом деле, дело было вечером, делать было нечего. У меня мания такая, что-нибудь да менять (Slackware позволяет делать это безболезненно). Вечно то список установленных пакетов почищу, то из ядра очередную ненужную фичу/драйвер выкину (на самом деле я это специально постепенно делаю, а то уже было пару раз, повыкидывал, а потом сидел и думал что же такого важного я выкинул), то init-скрипты на csh перепишу :D.
Спасибо сказали:
Аватара пользователя
drBatty
Сообщения: 8735
Статус: GPG ID: 4DFBD1D6 дом горит, козёл не видит...
ОС: Slackware-current

Re: Дедупликация данных

Сообщение drBatty »

BratSinot писал(а):
02.12.2012 16:04
Вообщем вопрос насчет файловых систем с дедупликацией данных в Linux (ZFS и прочие костыли не предлагать) или чего-то, что применимо к существующим файловым системам.

tar чем не подходит?
http://emulek.blogspot.ru/ Windows Must Die
Учебник по sed зеркало в github

Скоро придёт
Осень
Спасибо сказали:
Аватара пользователя
rm_
Сообщения: 3340
Статус: It's the GNU Age
ОС: Debian

Re: Дедупликация данных

Сообщение rm_ »

drBatty писал(а):
06.12.2012 11:13
BratSinot писал(а):
02.12.2012 16:04
Вообщем вопрос насчет файловых систем с дедупликацией данных в Linux (ZFS и прочие костыли не предлагать) или чего-то, что применимо к существующим файловым системам.

tar чем не подходит?

tar - это файловая система с дедупликацией данных?
Спасибо сказали:
pelmen
Сообщения: 1268
ОС: debian

Re: Дедупликация данных

Сообщение pelmen »

drBatty писал(а):
06.12.2012 11:13
BratSinot писал(а):
02.12.2012 16:04
Вообщем вопрос насчет файловых систем с дедупликацией данных в Linux (ZFS и прочие костыли не предлагать) или чего-то, что применимо к существующим файловым системам.

tar чем не подходит?
tar ничем не подходит
Спасибо сказали:
Аватара пользователя
Bluetooth
Сообщения: 4395
Статус: Блюзовый
ОС: Debian Squeeze amd64

Re: Дедупликация данных

Сообщение Bluetooth »

то init-скрипты на csh перепишу biggrin.gif.

:D
На самом деле, дело было вечером, делать было нечего.
Ну раз никакой реальной задачи не стоит, то зачем тогда упираться в желании поставить это на корень? Поставьте не на корень, посмотрите fuse поделки на это, оцените их, zfs в конце концов посмотрите, btrfs.
Спасибо сказали:
Аватара пользователя
Ленивая Бестолочь
Бывший модератор
Сообщения: 2760
ОС: Debian; gentoo

Re: Дедупликация данных

Сообщение Ленивая Бестолочь »

Bluetooth писал(а):
06.12.2012 15:14
zfs в конце концов посмотрите, btrfs.

а вот это на корень :-)
Солнце садилось в море, а люди с неоконченным высшим образованием выбегали оттуда, думая, что море закипит.
Спасибо сказали:
Аватара пользователя
Bluetooth
Сообщения: 4395
Статус: Блюзовый
ОС: Debian Squeeze amd64

Re: Дедупликация данных

Сообщение Bluetooth »

Ленивая Бестолочь писал(а):
06.12.2012 16:34
Bluetooth писал(а):
06.12.2012 15:14
zfs в конце концов посмотрите, btrfs.

а вот это на корень :-)

Уйди, солярщик :)
Спасибо сказали: