Сабж. Интересует для чтения документации/книжек в метро на кпк)
Часто книги или документация доступны только для online чтения, в принципе, их можно читать и из скаченного html, но это неудобно.
Кто-нибудь пробовал делать подобное? Думаю, можно сделать конвеер с wget, для отдачи им на stdout html-файлов сразу какому-нибудь pdf-конвертеру, например, такому: тЫц
Но вот только wget (обычно качаю с ключами wget -c -p -r -l0 -np -N -k -nv http://URL) после скачивания всего этого дела конвертирует ссылки на относительные, что полезно, но что делает нетривиальным написание скрипта для конвертации в pdf...
Может быть, кто-нибудь знает решение? Кроме конвеера, который выдаст битые ссылки, я придумать ничего не смогла.
Может, есть вообще какой-нибудь плагин для OpenOffice или что-то такое же простое?
Спасибо за идеи
download wget >>> pdf? (Как из выкаченных страниц сайта сделать pdf?)
Модератор: /dev/random
- /dev/random
- Администратор
- Сообщения: 5282
- ОС: Gentoo
Re: download wget >>> pdf?
Если, как вы говорите, проблема только в конвертации ссылок (хотя я не пойму, чем она мешает?), то уберите ключ -k.
-
- Сообщения: 115
- ОС: разные Red Hat'ы
Re: download wget >>> pdf?
/dev/random писал(а): ↑09.03.2009 20:07Если, как вы говорите, проблема только в конвертации ссылок (хотя я не пойму, чем она мешает?), то уберите ключ -k.
Конвертация ссылок наоборот нужна! Я немного неточно описала свои затрудения )
Можно переконвертировать много-много html страничек в много-много pdf файлов, а нужно в один)
Вот по поводу этого и нет идей)
- /dev/random
- Администратор
- Сообщения: 5282
- ОС: Gentoo
Re: download wget >>> pdf?
Сконвертировать text/html в text/plain и слить вместе?
Удалить у всех файлов, кроме первого, <body> и всё, что до него, а у всех, кроме последнего - </body> и всё, что после; и опять же слить вместе?
Удалить у всех файлов, кроме первого, <body> и всё, что до него, а у всех, кроме последнего - </body> и всё, что после; и опять же слить вместе?
-
- Сообщения: 115
- ОС: разные Red Hat'ы
Re: download wget >>> pdf?
Вот! Я тоже думала сделать как-то так Но вот только не понятно, как можно слить все эти файлы по-порядку. Можно, конечно, попробовать вникнуть в исходники wget, что бы понять, как он парсит ссылки, но у меня слегка не такой уровень, что бы слегкостью разобраться в исходниках такого монстра, как wget
Пока вижу выход в написании своего парсера html-ых страничек и ссылок в них на каком-нить php или bash...
Неужели никому раньше не приходилось делать что-то такое?
Прошу прощения у читающих топик за сумбурность изложения проблемы и своих соображений
Пока вижу выход в написании своего парсера html-ых страничек и ссылок в них на каком-нить php или bash...
Неужели никому раньше не приходилось делать что-то такое?
Прошу прощения у читающих топик за сумбурность изложения проблемы и своих соображений
/dev/random писал(а): ↑09.03.2009 20:56Сконвертировать text/html в text/plain и слить вместе?
Удалить у всех файлов, кроме первого, <body> и всё, что до него, а у всех, кроме последнего - </body> и всё, что после; и опять же слить вместе?
- /dev/random
- Администратор
- Сообщения: 5282
- ОС: Gentoo
Re: download wget >>> pdf?
sHaggY_caT писал(а): ↑10.03.2009 15:26Но вот только не понятно, как можно слить все эти файлы по-порядку.
Для каждого сайта по-разному. Универсального способа нет, поскольку ссылки на разные фрагменты могут располагаться совершенно по-разному. Посмотрите, может в именах сохранённых файлов есть номера фрагментов?
-
- Сообщения: 115
- ОС: разные Red Hat'ы
Re: download wget >>> pdf?
/dev/random писал(а): ↑10.03.2009 15:47sHaggY_caT писал(а): ↑10.03.2009 15:26Но вот только не понятно, как можно слить все эти файлы по-порядку.
Для каждого сайта по-разному. Универсального способа нет, поскольку ссылки на разные фрагменты могут располагаться совершенно по-разному. Посмотрите, может в именах сохранённых файлов есть номера фрагментов?
Да, но wget-то как-то парсит эти ссылки! Написать код, который возьмет из текста странички все ссылки, накидает текста по ним в определенном порядке в один текстовый файл, и поставит какие-то теги, я уверена, можно, но это не так просто )
Тему создала прежде всего для того, что бы не изобретать велосипед, возможно, кому-то известно готовое решение)
- /dev/random
- Администратор
- Сообщения: 5282
- ОС: Gentoo
Re: download wget >>> pdf?
Парсит. Но расставить в правильном порядке не сможет.