РЕШЕНО - сравнить файлы (сравнить файлы по содержимому)

v4567 · Сообщение **v4567** » 21.04.2019 19:22

Опят прошу помощи форумчан, извините, что обращаюсь к вам за решением, так как сам решения не нашёл. Вернее решение нашёл, но оно для серьёзного практического применения не годиться.
Есть два каталога с подкаталогами, надо рекурсивно сравнить файлы по содержимому но не по названию. Найти рекурсивно, (путь где находится файл не важен и не важно его название, могут отличаться в названии и в местонахождении), (файлы обычные бинарники, текстовые, архивы и т.д. но не ссылки, пайпы, блочные устройства и т.д.), файлы которые различаются по содержимому и записать в массив только файлы которые находятся в одной из директорий, например в первой.
Перепробовал и diff и rsync но ничего из этого не подошло, даже воспользоваться информацией полученной от diff или rsync не получилось, так как выдают не то что нужно.
Решение нашёл прямое, из первой папки вычисляю все md5sum каждого файла и заношу в массив, файл и его md5 сумму, потом из второй папки делаю то же самое.
Потом в двойном цикле сравниваю эти массивы, то есть из первого беру первое значение и сравниваю со всеми значениями из второго массива, потом из первого беру второе значение и сравниваю опять со всеми значениями второго массива и т.д.
Потом на основании этого сравнения формирую окончательный массив где будет лежать перечень файлов из первой папки отличающийся по содержанию с файлами со второй при этом они могут иметь одинаковые имена.
Данный способ работает отлично, но для практического применения вряд ли годится, вернее годится когда файлов мало и они небольшого размера. Кода как в моём случае их очень много и есть большого размера, то на выполнение данного скрипта уходит не часы - дни.
А быстрое решение я так и не нашёл.
Помогите кто знает как сделать или уже сталкивался с таким.

v4567 · Сообщение **v4567** » 21.04.2019 19:27

Наверное как то можно решить при помощи rsync с опцией -n но другие опции и их комбинации подходящие под мою задачу так и не нашёл. Не получается сделать при помощи rsync. С diff дела ещё хуже.

Сообщение **/dev/random** » 21.04.2019 19:39

Есть специализированные утилиты для поиска дубликатов файлов, вроде fdupes и duff (обе должны быть в большинстве дистрибутивов). Они именно по хешам и сравнивают, но для ускорения работы сначала сравнивают размеры, а хеши вычисляют только для тех файлов, размеры которых не уникальны. Ну и, разумеется, готовые хеши сравнивают более умными способами, чем каждый с каждым.

В вашем случае, как я понимаю, раз вы ищете не дубли, а наоборот, уникальные файлы, большинство файлов у вас - дубли, верно? Если так, то эта оптимизация по уникальности размера особого прироста производительности не даст, а более быстрого способа нет. Но в любом случае, всё же рекомендую не изобретать велосипед, а воспользоваться этими готовыми утилитами.

v4567 · Сообщение **v4567** » 21.04.2019 21:15

/dev/random Огромное спасибо!
Пытаюсь сделать при помощи duff.
Тогда отпишусь о результатах.

v4567 · Сообщение **v4567** » 21.04.2019 23:36

Не совсем подошёл fdupes и duff. Они ищут дубликаты в одной директории. Если я в одну папку сложу две своих директории, то может получиться что у меня в первой директории будут два одинаковых по содержанию файла но они будут отличаться от файлов второй директории. в результате будет ошибка.

Нашёл вот такую конструкцию, этой конструкцией я нахожу дубликаты, а потом убираю их из первой директории и получаю файлы отличные по содержанию от файлов второй директории.

Добавлено (23:38):

Добавлено (00:20):