Ссылки с сайта
Модератор: /dev/random
-
GNUUser
- Сообщения: 89
Ссылки с сайта
Как вывести адреса всех страниц сайта ?
-
/dev/random
- Администратор
- Сообщения: 5433
- ОС: Gentoo
Re: Ссылки с сайта
В общем случае это невозможно. К примеру, страницы с результатами разных поисковых запросов - это разные страницы. Удачи с выводом всех возможных запросов.
Если же сайт статический и на любую страницу можно попасть по ссылкам, можете попробовать скачать его локальную копию с помощью рекурсивного режима wget, с сохранением структуры. Скачивание в данном случае обязательно, т.к. нужно проверить каждую страницу на наличие новых ссылок. Структура директорий будет соответствовать адресам страниц.
Ну и наконец, некоторые сайты имеют так называемую карту - либо доступную пользователю страницу, либо xml-файл, со списком страниц, которые владелец рекомендует поисковикам индексировать. Если она есть, то можно взять список оттуда. Но, разумеется, нет никакой гарантии, что он будет полным.
Спасибо сказали:
-
drBatty
- Сообщения: 8735
- Статус: GPG ID: 4DFBD1D6 дом горит, козёл не видит...
- ОС: Slackware-current
Re: Ссылки с сайта
а это только для статики возможно. Как тут выше предлагали wget'ом. Можно лучше сделать: после выдёргивания ссылок, надо страницу удалить. В принципе это несложно реализовать в php+mysql, быстродействие тут не имеет значения, т.к. у нас всего один поток(т.е. оно в любом случае будет тратить основное время на закачку страниц).
Для динамических страниц это обычно невозможно. Особенно, если неизвестна логика сервера. Ну вот по этой https://ru.wikipedia.org/wiki/%D0%A1%D0%BB%...%B8%D1%86%D0%B0 ссылке куда пойдёт ваша программа? А таких ссылок 95%.