Ссылки с сайта

Софт под Linux, разные программы, но только связанные с Linux

Модератор: /dev/random

GNUUser
Сообщения: 89

Ссылки с сайта

Сообщение GNUUser »

Как вывести адреса всех страниц сайта ?
Спасибо сказали:
Аватара пользователя
/dev/random
Администратор
Сообщения: 5433
ОС: Gentoo

Re: Ссылки с сайта

Сообщение /dev/random »

GNUUser писал(а):
15.10.2014 19:58
Как вывести адреса всех страниц сайта ?

В общем случае это невозможно. К примеру, страницы с результатами разных поисковых запросов - это разные страницы. Удачи с выводом всех возможных запросов.

Если же сайт статический и на любую страницу можно попасть по ссылкам, можете попробовать скачать его локальную копию с помощью рекурсивного режима wget, с сохранением структуры. Скачивание в данном случае обязательно, т.к. нужно проверить каждую страницу на наличие новых ссылок. Структура директорий будет соответствовать адресам страниц.

Ну и наконец, некоторые сайты имеют так называемую карту - либо доступную пользователю страницу, либо xml-файл, со списком страниц, которые владелец рекомендует поисковикам индексировать. Если она есть, то можно взять список оттуда. Но, разумеется, нет никакой гарантии, что он будет полным.
Спасибо сказали:
Аватара пользователя
drBatty
Сообщения: 8735
Статус: GPG ID: 4DFBD1D6 дом горит, козёл не видит...
ОС: Slackware-current

Re: Ссылки с сайта

Сообщение drBatty »

GNUUser писал(а):
15.10.2014 19:58
Как вывести адреса всех страниц сайта ?

а это только для статики возможно. Как тут выше предлагали wget'ом. Можно лучше сделать: после выдёргивания ссылок, надо страницу удалить. В принципе это несложно реализовать в php+mysql, быстродействие тут не имеет значения, т.к. у нас всего один поток(т.е. оно в любом случае будет тратить основное время на закачку страниц).

Для динамических страниц это обычно невозможно. Особенно, если неизвестна логика сервера. Ну вот по этой https://ru.wikipedia.org/wiki/%D0%A1%D0%BB%...%B8%D1%86%D0%B0 ссылке куда пойдёт ваша программа? А таких ссылок 95%.
http://emulek.blogspot.ru/ Windows Must Die
Учебник по sed зеркало в github

Скоро придёт
Осень
Спасибо сказали: