последними событиями эта тема привлекла особый интерес. Кроме стандартных
утилит используется wget. Пишу наиболее существенную часть, кроме этого можно
навесить всего, что придумаете. Также можно добавить всякие опции wget.
Код: Выделить всё
REJECTFILES=*Piece*,What-s-new,Mirrors,*_Contents,.dir_StripDir.html,GuestBook*,Go?*
REJECTTXT=*.txt,*.jpg,*.gif,*.tex,*.c
REJECTFOLDERS=forum,HITPARAD,RUSS_DETEKTIW,\
POEZIQ,INPROZ,DETEKTIWY,KSP,ALPINISM,PARACHUTE,EMIGRATION,CINEMA,SONGS,SU,PXESY,
NEWPROZA,TALES,PRIKL,PRAWO,\
CULTURE,FILOSOF,URIKOVA,RELIGION,DIALEKTIKA,ASTROLOGY,POLITOLOG,PSIHO,NLP,DPEOPL
E,ECONOMY,KIDS,MAN,CYRILLIC,SCHOOL,\
TECHBOOKS,SENDMAIL,CISCO,SOFTWARE,PC,DESIGN,COMPULIB,AWARDS,GAMES,TXT,ETIKETKI,A
CKNOWLEDGEMENT,DOWNLOAD,HARRYFAN,\
COPYRIGHT,INDEXLESS,KARTINKI,TURIZM,SKI
OPTIONS="-r -l 0 -X $REJECTFOLDERS http://lib.ru/"
# First pass. Update indices
wget -N -R $REJECTFILES,$REJECTTXT $OPTIONS
# Second pass. New txt
wget -nc -R $REJECTFILES $OPTIONS
В принципе, Вам самим придется решать, что Вы НЕ хотите загружать. Такой подход
вызван тем, что некоторые (наиболее известные и популярные!) авторы вынесены в
корневой каталог, поэтому загрузка по выбору только некоторых каталогов (типа
RUFANT, INOFANT, например) приведет к пропуску таких каталогов.
Файлы в кодировке windows-cp1251.
Многие файлы доступны как в виде цельного текста, так и по частям. "Куски"
запрещены маской *Piece*. Некоторые ненужные типы файлов также запрещены.
Да, возможно будет иметь смысл зеркалировать не lib.ru, а какое-то из зеркал.
В планах создание более продвинутой версии, которая будет получать и сохранять
файлы в компрессированном виде.