download wget >>> pdf? (Как из выкаченных страниц сайта сделать pdf?)

Модератор: /dev/random

Ответить
sHaggY_caT
Сообщения: 115
ОС: разные Red Hat'ы

download wget >>> pdf?

Сообщение sHaggY_caT »

Сабж. Интересует для чтения документации/книжек в метро на кпк)
Часто книги или документация доступны только для online чтения, в принципе, их можно читать и из скаченного html, но это неудобно.

Кто-нибудь пробовал делать подобное? Думаю, можно сделать конвеер с wget, для отдачи им на stdout html-файлов сразу какому-нибудь pdf-конвертеру, например, такому: тЫц
Но вот только wget (обычно качаю с ключами wget -c -p -r -l0 -np -N -k -nv http://URL) после скачивания всего этого дела конвертирует ссылки на относительные, что полезно, но что делает нетривиальным написание скрипта для конвертации в pdf...

Может быть, кто-нибудь знает решение? Кроме конвеера, который выдаст битые ссылки, я придумать ничего не смогла.
Может, есть вообще какой-нибудь плагин для OpenOffice или что-то такое же простое?

Спасибо за идеи:)
Спасибо сказали:
Аватара пользователя
/dev/random
Администратор
Сообщения: 5282
ОС: Gentoo

Re: download wget >>> pdf?

Сообщение /dev/random »

Если, как вы говорите, проблема только в конвертации ссылок (хотя я не пойму, чем она мешает?), то уберите ключ -k.
Спасибо сказали:
sHaggY_caT
Сообщения: 115
ОС: разные Red Hat'ы

Re: download wget >>> pdf?

Сообщение sHaggY_caT »

/dev/random писал(а):
09.03.2009 20:07
Если, как вы говорите, проблема только в конвертации ссылок (хотя я не пойму, чем она мешает?), то уберите ключ -k.


Конвертация ссылок наоборот нужна! Я немного неточно описала свои затрудения )
Можно переконвертировать много-много html страничек в много-много pdf файлов, а нужно в один)
Вот по поводу этого и нет идей)
Спасибо сказали:
Аватара пользователя
/dev/random
Администратор
Сообщения: 5282
ОС: Gentoo

Re: download wget >>> pdf?

Сообщение /dev/random »

Сконвертировать text/html в text/plain и слить вместе?
Удалить у всех файлов, кроме первого, <body> и всё, что до него, а у всех, кроме последнего - </body> и всё, что после; и опять же слить вместе?
Спасибо сказали:
sHaggY_caT
Сообщения: 115
ОС: разные Red Hat'ы

Re: download wget >>> pdf?

Сообщение sHaggY_caT »

Вот! Я тоже думала сделать как-то так :) Но вот только не понятно, как можно слить все эти файлы по-порядку. Можно, конечно, попробовать вникнуть в исходники wget, что бы понять, как он парсит ссылки, но у меня слегка не такой уровень, что бы слегкостью разобраться в исходниках такого монстра, как wget :(

Пока вижу выход в написании своего парсера html-ых страничек и ссылок в них на каком-нить php или bash...
Неужели никому раньше не приходилось делать что-то такое?

Прошу прощения у читающих топик за сумбурность изложения проблемы и своих соображений

/dev/random писал(а):
09.03.2009 20:56
Сконвертировать text/html в text/plain и слить вместе?
Удалить у всех файлов, кроме первого, <body> и всё, что до него, а у всех, кроме последнего - </body> и всё, что после; и опять же слить вместе?
Спасибо сказали:
Аватара пользователя
/dev/random
Администратор
Сообщения: 5282
ОС: Gentoo

Re: download wget >>> pdf?

Сообщение /dev/random »

sHaggY_caT писал(а):
10.03.2009 15:26
Но вот только не понятно, как можно слить все эти файлы по-порядку.

Для каждого сайта по-разному. Универсального способа нет, поскольку ссылки на разные фрагменты могут располагаться совершенно по-разному. Посмотрите, может в именах сохранённых файлов есть номера фрагментов?
Спасибо сказали:
sHaggY_caT
Сообщения: 115
ОС: разные Red Hat'ы

Re: download wget >>> pdf?

Сообщение sHaggY_caT »

/dev/random писал(а):
10.03.2009 15:47
sHaggY_caT писал(а):
10.03.2009 15:26
Но вот только не понятно, как можно слить все эти файлы по-порядку.

Для каждого сайта по-разному. Универсального способа нет, поскольку ссылки на разные фрагменты могут располагаться совершенно по-разному. Посмотрите, может в именах сохранённых файлов есть номера фрагментов?


Да, но wget-то как-то парсит эти ссылки! Написать код, который возьмет из текста странички все ссылки, накидает текста по ним в определенном порядке в один текстовый файл, и поставит какие-то теги, я уверена, можно, но это не так просто )
Тему создала прежде всего для того, что бы не изобретать велосипед, возможно, кому-то известно готовое решение)
Спасибо сказали:
Аватара пользователя
/dev/random
Администратор
Сообщения: 5282
ОС: Gentoo

Re: download wget >>> pdf?

Сообщение /dev/random »

Парсит. Но расставить в правильном порядке не сможет.
Спасибо сказали:
Ответить