В оффтопике есть замечательный краулер http://home.snafu.de/tilman/xenulink.html
данная программа сканирует все урлы сайта и возвращает информацию в виде таблички csv с разными параметрами: урл, статус, код ответа, размер, тип контента, титл, кодировка и т.п.
Есть ли в линукс консоли что нибудь подобное?
Аналог xenu в консоли (краулер сайта)
Модератор: /dev/random
- Bizdelnick
- Модератор
- Сообщения: 20795
- Статус: nulla salus bello
- ОС: Debian GNU/Linux
Re: Аналог xenu в консоли (краулер сайта)
Пишется на любом скриптовом языке от силы за час. Однако позвольте полюбопытствовать, зачем оно? Не вижу практического применения этой информации.
Пишите правильно:
в консоли вку́пе (с чем-либо) в общем вообще | в течение (часа) новичок нюанс по умолчанию | приемлемо проблема пробовать трафик |
Спасибо сказали:
Re: Аналог xenu в консоли (краулер сайта)
Пишется на любом скриптовом языке от силы за час.
хотел сперва убедиться, что такого нет. зы я может и поболее часа писать буду.
Однако позвольте полюбопытствовать, зачем оно?
всяко разно, например я сайт спарсил в 20 тысяч страниц, урлы и титлы, чтобы пнуть его ссылками в твиттере. Искаю 404 после обновлений сайта. и т.п.
- Bizdelnick
- Модератор
- Сообщения: 20795
- Статус: nulla salus bello
- ОС: Debian GNU/Linux
Re: Аналог xenu в консоли (краулер сайта)
Ну для этого готовых скриптов полно. Сходу в репах нашёлся linkchecker и более навороченный htcheck. И ещё какой-то webcheck, который вроде умеет существенно больше — рекомендую посмотреть.
Пишите правильно:
в консоли вку́пе (с чем-либо) в общем вообще | в течение (часа) новичок нюанс по умолчанию | приемлемо проблема пробовать трафик |
Спасибо сказали:
Re: Аналог xenu в консоли (краулер сайта)
linkchecker у меня зависал, остальные надо посмотреть. Но 404 - это только одна из функций xenu. Всё таки основной плюс - это парсинг основных тегов и дополнительной инфы о странице. Типа беру сайт конкурента и на странице более 10Кб выделяю и читаю дескриптионы. Многие в кейвордс анкор лист записывают. И так далее...