[Решено] Сравнение двух файлов

storm2005 · Сообщение **storm2005** » 15.03.2011 14:19

Необходимо сравнить два файла.

Изначальная задача.
Есть много каталогов (более миллиона). Некоторые из них необходимо удалить со всем содержимым около (400 тыс.). Есть список с именами каталогов, но без путей.

Вот так получаю все каталоги
find /root/test1/dir $pwd -type d |sort |uniq > 1.tmp
на выходе файл 1.tmp

Код: Выделить всё

/root/test1/dir
/root/test1/dir/11
/root/test1/dir/11/1
/root/test1/dir/11/2
/root/test1/dir/11/3
/root/test1/dir/11/4
/root/test1/dir/11/5
/root/test1/dir/12
/root/test1/dir/12/1
/root/test1/dir/12/2

Файл 2.tmp

Код: Выделить всё

11
13

Необходимо сравнить файлы таким образом, что бы на выходе сформировать файл в котором останутся пути в которых не встречается комбинация цифр из 2.tmp
Из примера выше это:

Код: Выделить всё

/root/test1/dir/12
/root/test1/dir/12/1
/root/test1/dir/12/2

Сообщение **SLEDopit** » 15.03.2011 14:29

если 2.tmp небольшое (порядка 5 вариантов), то проще сделать вот так:

Код: Выделить всё

find /root/test1/dir $pwd -type d |sort -u | grep -vE "11|13|etc" > out.tmp

если большой, то вот так:

Код: Выделить всё

echo '#!/bin/sed -f' > 2.sed; cat 2.tmp | sed 's=^=/=;s=$=/d;' >> 2.sed; chmod +x 2.sed; ./2.sed 1.tmp > out.tmp

storm2005 · Сообщение **storm2005** » 15.03.2011 14:38

SLEDopit писал(а): ↑
15.03.2011 14:29
если 2.tmp небольшое (порядка 5 вариантов), то проще сделать вот так:
Код: Выделить всё
find /root/test1/dir $pwd -type d |sort -u | grep -vE "11|13|etc" > out.tmp
если большой, то вот так:
Код: Выделить всё
echo '#!/bin/sed -f' > 2.sed; cat 2.tmp | sed 's=^=/=;s=$=/d;' >> 2.sed; chmod +x 2.sed; ./2.sed 1.tmp > out.tmp

Код: Выделить всё

echo '#!/bin/sed -f' > 2.sed; cat 2.tmp | sed 's=^=/=;s=$=/d;' >> 2.sed; chmod +x 2.sed; ./2.sed 1.tmp > out.tmp
sed: -e выражение #1, символ 14: незавершенная команда `s'

Сообщение **SLEDopit** » 15.03.2011 15:20

storm2005 писал(а): ↑
15.03.2011 14:38
sed: -e выражение #1, символ 14: незавершенная команда `s'

символ забыл:

Код: Выделить всё

echo '#!/bin/sed -f' > 2.sed; cat 2.tmp | sed 's=^=/=;s=$=/d=;' >> 2.sed; chmod +x 2.sed; ./2.sed 1.tmp > out.tmp

storm2005 · Сообщение **storm2005** » 15.03.2011 16:05

cat out.tmp

Код: Выделить всё

/root/test1/dir
/root/test1/dir/12
/root/test1/dir/12/1
/root/test1/dir/12/2
/root/test1/dir/12/3
/root/test1/dir/12/4
/root/test1/dir/12/5
/root/test1/dir/14
/root/test1/dir/14/1
/root/test1/dir/14/2
/root/test1/dir/14/3
/root/test1/dir/14/4
/root/test1/dir/14/5

Можно избавиться от строк с корневыми каталогами, типа

Код: Выделить всё

/root/test1/dir?

storm2005 · Сообщение **storm2005** » 15.03.2011 17:32

Сделал грепом

Код: Выделить всё

#!/bin/sh

patch="/root/test1/dir"

find $patch $pwd -type d |sort |uniq |
grep -v '/root/test1/dir$' |
grep -v '/root/test1/dir/..$' > 1.tmp

echo '#!/bin/sed -f' > 2.sed; cat 2.tmp | sed 's=^=/=;s=$=/d=;' >> 2.sed; chmod +x 2.sed; ./2.sed 1.tmp > out.tmp

Сообщение **SLEDopit** » 15.03.2011 17:36

storm2005 писал(а): ↑
15.03.2011 16:05
Можно избавиться от строк с корневыми каталогами, типа

Если корневые это те, которые оканчиваются на буквы, а некорневые - на цифры, то вот так:

Код: Выделить всё

sed -i '/[0-9]$/!d' out.tmp

Сообщение **sash-kan** » 15.03.2011 18:20

можно обойтись одним find-ом:
$ find /root/test1/dir $pwd -regextype posix-egrep -type d -not -regex ".*/(11|13)"

p.s. если исключений (в файле 2.tmp) — порядка десятков/сотен, то, чтоб вручную их не набивать, можно последний элемент так примерно написать:
… -regex ".*/($(cat 2.tmp | sed -rn '$!H;${G;s/\n+/|/g;p}'))"
правда, если исключений тысячи, этот вариант, боюсь, может не прокатить.

storm2005 · Сообщение **storm2005** » 16.03.2011 10:06

sash-kan писал(а): ↑
15.03.2011 18:20
можно обойтись одним find-ом:
$ find /root/test1/dir $pwd -regextype posix-egrep -type d -not -regex ".*/(11|13)"

p.s. если исключений (в файле 2.tmp) — порядка десятков/сотен, то, чтоб вручную их не набивать, можно последний элемент так примерно написать:
… -regex ".*/($(cat 2.tmp | sed -rn '$!H;${G;s/\n+/|/g;p}'))"
правда, если исключений тысячи, этот вариант, боюсь, может не прокатить.

Код: Выделить всё

find /root/test1/dir $pwd -regextype posix-egrep -type d -not -regex ".*/($(cat 2.tmp | sed -rn '$!H;${G;s/\n+/|/g;p}'))"
bash: !H: event not found

В фале 2.tmp при условии не совпадения с 1.tmp 1,5 мил. записей. При условии совпадения 400 тыс. записей.

Сообщение **sash-kan** » 16.03.2011 10:56

storm2005 писал(а): ↑
16.03.2011 10:06
bash: !H: event not found

ну вынесите из кавычек конструкцию $(…)
только пихать сотню тысяч записей в командную строку, конечено, нет смысла. делайте конвейером, варианты вам тут уже расписали,

unixforum.org

[Решено] Сравнение двух файлов

[Решено] Сравнение двух файлов

Re: [Решено] Сравнение двух файлов

Re: [Решено] Сравнение двух файлов

Re: [Решено] Сравнение двух файлов

Re: [Решено] Сравнение двух файлов

Re: [Решено] Сравнение двух файлов

Re: [Решено] Сравнение двух файлов

Re: [Решено] Сравнение двух файлов

Re: [Решено] Сравнение двух файлов

Re: [Решено] Сравнение двух файлов