Ссылки с сайта

GNUUser · Сообщение **GNUUser** » 15.10.2014 19:58

Как вывести адреса всех страниц сайта ?

Сообщение **/dev/random** » 15.10.2014 20:35

GNUUser писал(а): ↑
15.10.2014 19:58
Как вывести адреса всех страниц сайта ?

В общем случае это невозможно. К примеру, страницы с результатами разных поисковых запросов - это разные страницы. Удачи с выводом всех возможных запросов.

Если же сайт статический и на любую страницу можно попасть по ссылкам, можете попробовать скачать его локальную копию с помощью рекурсивного режима wget, с сохранением структуры. Скачивание в данном случае обязательно, т.к. нужно проверить каждую страницу на наличие новых ссылок. Структура директорий будет соответствовать адресам страниц.

Ну и наконец, некоторые сайты имеют так называемую карту - либо доступную пользователю страницу, либо xml-файл, со списком страниц, которые владелец рекомендует поисковикам индексировать. Если она есть, то можно взять список оттуда. Но, разумеется, нет никакой гарантии, что он будет полным.

drBatty · Сообщение **drBatty** » 21.10.2014 04:45

GNUUser писал(а): ↑
15.10.2014 19:58
Как вывести адреса всех страниц сайта ?

а это только для статики возможно. Как тут выше предлагали wget'ом. Можно лучше сделать: после выдёргивания ссылок, надо страницу удалить. В принципе это несложно реализовать в php+mysql, быстродействие тут не имеет значения, т.к. у нас всего один поток(т.е. оно в любом случае будет тратить основное время на закачку страниц).

Для динамических страниц это обычно невозможно. Особенно, если неизвестна логика сервера. Ну вот по этой https://ru.wikipedia.org/wiki/%D0%A1%D0%BB%...%B8%D1%86%D0%B0 ссылке куда пойдёт ваша программа? А таких ссылок 95%.

unixforum.org

Ссылки с сайта

Ссылки с сайта

Re: Ссылки с сайта

Re: Ссылки с сайта