Аналог xenu в консоли (краулер сайта)

Софт под Linux, разные программы, но только связанные с Linux

Модератор: /dev/random

Ответить
azsx
Сообщения: 3684
ОС: calculate linux, debian, ubuntu

Аналог xenu в консоли (краулер сайта)

Сообщение azsx »

В оффтопике есть замечательный краулер http://home.snafu.de/tilman/xenulink.html
данная программа сканирует все урлы сайта и возвращает информацию в виде таблички csv с разными параметрами: урл, статус, код ответа, размер, тип контента, титл, кодировка и т.п.
Есть ли в линукс консоли что нибудь подобное?
Спасибо сказали:
Аватара пользователя
Bizdelnick
Модератор
Сообщения: 20795
Статус: nulla salus bello
ОС: Debian GNU/Linux

Re: Аналог xenu в консоли (краулер сайта)

Сообщение Bizdelnick »

Пишется на любом скриптовом языке от силы за час. Однако позвольте полюбопытствовать, зачем оно? Не вижу практического применения этой информации.
Пишите правильно:
в консоли
вку́пе (с чем-либо)
в общем
вообще
в течение (часа)
новичок
нюанс
по умолчанию
приемлемо
проблема
пробовать
трафик
Спасибо сказали:
azsx
Сообщения: 3684
ОС: calculate linux, debian, ubuntu

Re: Аналог xenu в консоли (краулер сайта)

Сообщение azsx »

Пишется на любом скриптовом языке от силы за час.

хотел сперва убедиться, что такого нет. зы я может и поболее часа писать буду.
Однако позвольте полюбопытствовать, зачем оно?

всяко разно, например я сайт спарсил в 20 тысяч страниц, урлы и титлы, чтобы пнуть его ссылками в твиттере. Искаю 404 после обновлений сайта. и т.п.
Спасибо сказали:
Аватара пользователя
Bizdelnick
Модератор
Сообщения: 20795
Статус: nulla salus bello
ОС: Debian GNU/Linux

Re: Аналог xenu в консоли (краулер сайта)

Сообщение Bizdelnick »

azsx писал(а):
15.12.2015 12:20
Искаю 404

Ну для этого готовых скриптов полно. Сходу в репах нашёлся linkchecker и более навороченный htcheck. И ещё какой-то webcheck, который вроде умеет существенно больше — рекомендую посмотреть.
Пишите правильно:
в консоли
вку́пе (с чем-либо)
в общем
вообще
в течение (часа)
новичок
нюанс
по умолчанию
приемлемо
проблема
пробовать
трафик
Спасибо сказали:
azsx
Сообщения: 3684
ОС: calculate linux, debian, ubuntu

Re: Аналог xenu в консоли (краулер сайта)

Сообщение azsx »

linkchecker у меня зависал, остальные надо посмотреть. Но 404 - это только одна из функций xenu. Всё таки основной плюс - это парсинг основных тегов и дополнительной инфы о странице. Типа беру сайт конкурента и на странице более 10Кб выделяю и читаю дескриптионы. Многие в кейвордс анкор лист записывают. И так далее...
Спасибо сказали:
Ответить