PDF to HTML (есть ли такое?)
Модератор: /dev/random
-
shau-kote
- Сообщения: 417
- Статус: злобный хоббит
- ОС: Arch
PDF to HTML
Есть нужда конвертировать PDF файл в HTML. Подскажите, пожалуйста, есть ли такое и как его звать?..
-
/dev/random
- Администратор
- Сообщения: 5456
- ОС: Gentoo
Re: PDF to HTML
Качественно преобразовывать PDF в HTML не умеет никто. А если устраивает необходимость править потом руками, то попробуйте утилиту pdftohtml из комплекта poppler.
-
shau-kote
- Сообщения: 417
- Статус: злобный хоббит
- ОС: Arch
Re: PDF to HTML
Поставил, запустил:
А в out.html сплошные крякозабры... :( Что не так?
З.Ы. Локаль - utf8.
Код: Выделить всё
pdftohtml -enc UTF-8 -p in.pdf out.htmlА в out.html сплошные крякозабры... :( Что не так?
З.Ы. Локаль - utf8.
-
/dev/random
- Администратор
- Сообщения: 5456
- ОС: Gentoo
Re: PDF to HTML
Команда написана правильно. Возможно, для данного конкретного pdf-файла неправильно определилась кодировка. Скопипастите сюда кусок "кракозяблов" (если не содержит конфиденциальной информации).
-
/dev/random
- Администратор
- Сообщения: 5456
- ОС: Gentoo
Re: PDF to HTML
Upd: и ещё. Загляните в html-файл текстовым редактором, будет ли кодировка правильной в этом случае?
-
shau-kote
- Сообщения: 417
- Статус: злобный хоббит
- ОС: Arch
Re: PDF to HTML
/dev/random писал(а): ↑20.09.2010 17:27Скопипастите сюда кусок "кракозяблов" (если не содержит конфиденциальной информации).
Нету, это "UNIX. Программное окружение."
Код: Выделить всё
а�аБб�аЕаМ 26 аПаЕб�. аЛ. аЂаИб�аАаЖ 3000 б�аКаЗ. а�аАаКаАаЗ N
а�б�аПаЕб�аАб�аАаНаО б� аДаИаАаПаОаЗаИб�аИаВаОаВ аВ а�аКаАаДаЕаМаИб�аЕб�аКаОаЙ б�аИаПаОаГб�аАб�аИаИ ТЋа�аАб�аКаАТЛ а а�а�
199034, аЁаАаНаКб� а�аЕб�аЕб�аБб�б�аГ, 9 аЛаИаНаИб�, 12.
а�аГаЛаАаВаЛаЕаНаИаЕ
а�б�аЕаДаИб�аЛаОаВаИаЕ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1. UNIX аДаЛб� аНаАб�аИаНаАб�б�аИб� . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15/dev/random писал(а): ↑20.09.2010 17:32Upd: и ещё. Загляните в html-файл текстовым редактором, будет ли кодировка правильной в этом случае?
Нет, не будет, те же крякозябры.
З.Ы. Декодер студии Лебедева утверждает, что это ISO-8859-5.
-
watashiwa_daredeska
- Бывший модератор
- Сообщения: 4038
- Статус: Искусственный интеллект (pre-alpha)
- ОС: Debian GNU/Linux
Re: PDF to HTML
=«объем 26 печ. л. Тираж 3000 экз. Заказ N»
=«Отпечатано с диапозитивов в академческой типографии»
Ну, и т.д. С русским языком во всех этих PS и PDF — вечные проблемы.
Возможно. Только ещё мусор какой-то понавставлен между буквами.
Мои розовые очки
-
/dev/random
- Администратор
- Сообщения: 5456
- ОС: Gentoo
Re: PDF to HTML
watashiwa_daredeska писал(а): ↑20.09.2010 18:01Возможно. Только ещё мусор какой-то понавставлен между буквами.
Этот мусор - из-за двухкратного преобразования из однобайтовой кодировки в многобайтовую. Осталось определить, из какой в какую.
-
shau-kote
- Сообщения: 417
- Статус: злобный хоббит
- ОС: Arch
Re: PDF to HTML
Эээ... А как?..
-
/dev/random
- Администратор
- Сообщения: 5456
- ОС: Gentoo
-
shau-kote
- Сообщения: 417
- Статус: злобный хоббит
- ОС: Arch
Re: PDF to HTML
/dev/random писал(а): ↑20.09.2010 18:37Что скажет
iconv -f utf-8 -t iso-8859-5 файл
? Начнёт нормально перекодировать или ругнётся на неправильный символ?
Ругнётся:
Код: Выделить всё
[shau-kote:~]% iconv -f utf-8 -t ISO8859-5 UNIX.pdf
%PDF-1.5
%iconv: недопустимая входная последовательность в позиции 10
[shau-kote:~]% :(-
/dev/random
- Администратор
- Сообщения: 5456
- ОС: Gentoo
-
shau-kote
- Сообщения: 417
- Статус: злобный хоббит
- ОС: Arch
Re: PDF to HTML
Код: Выделить всё
[shau-kote:~]% iconv -f utf-8 -t ISO8859-5 Texts/UNIXs.html
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"><HTML>
<HEAD>
<TITLE></TITLE>
</HEAD>
<BODY>
<A name=1></a>THE UNIX <br>
PROGRAMMING <br>
ENVIRONMENT<br>
<i>Brian W. Kernighan, Rob Pike</i><br>
PRENTICE HALL<br>
<hr>
<A name=2></a>¿À ¾³À°¼¼½¾µ ¾ºÀöµ½¸µ<br>
<i>±àÐÙÐÝ ºÕàÝØÓÐÝ, ÀÞÑ ¿ÐÙÚ</i><br>
ÁÐÝÚâ ¿ÕâÕàÑãàÓ iconv: недопустимая входная последовательность в позиции 423
[shau-kote:~]%Да, если теперь HTML'ник просматривать less'ом, то начало у него читабельное. Но браузер всё равно крякозябры кажет. :(
-
sgfault
- Сообщения: 586
- Статус: -
Re: PDF to HTML
Если это был пример html-a
и, тк судя по всему это utf-8, то какой смысл его конвертировать - он уже неправильный: символов U+fffd, насколько я понимаю, в нормальном тексте быть не должно. Возможно, он (html) просто неправильно записан изначально: т.е ошибка не в распознавании кодировки - ошибку делает pdftohtml, когда конвертирует файл.
shau-kote писал(а): ↑20.09.2010 17:54Код: Выделить всё
а�аБб�аЕаМ 26 аПаЕб�. аЛ. аЂаИб�аАаЖ 3000 б�аКаЗ. а�аАаКаАаЗ N а�б�аПаЕб�аАб�аАаНаО б� аДаИаАаПаОаЗаИб�аИаВаОаВ аВ а�аКаАаДаЕаМаИб�аЕб�аКаОаЙ б�аИаПаОаГб�аАб�аИаИ ТЋа�аАб�аКаАТЛ а а�а� 199034, аЁаАаНаКб� а�аЕб�аЕб�аБб�б�аГ, 9 аЛаИаНаИб�, 12. а�аГаЛаАаВаЛаЕаНаИаЕ а�б�аЕаДаИб�аЛаОаВаИаЕ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 1. UNIX аДаЛб� аНаАб�аИаНаАб�б�аИб� . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
и, тк судя по всему это utf-8, то какой смысл его конвертировать - он уже неправильный: символов U+fffd, насколько я понимаю, в нормальном тексте быть не должно. Возможно, он (html) просто неправильно записан изначально: т.е ошибка не в распознавании кодировки - ошибку делает pdftohtml, когда конвертирует файл.
-
/dev/random
- Администратор
- Сообщения: 5456
- ОС: Gentoo
-
sgfault
- Сообщения: 586
- Статус: -
Re: PDF to HTML
/dev/random писал(а): ↑20.09.2010 20:33Я думаю, их повтыкал движок форума, на место каких-то неизвестных ему символов.
Аа.. может.
Тогда было бы интересно взглянуть на вывод od для html-a файла (или для той части, где "что-то не то").
Код: Выделить всё
od -Ax -tx1z file.html-
shau-kote
- Сообщения: 417
- Статус: злобный хоббит
- ОС: Arch
Re: PDF to HTML
sgfault, весь вывод?.. Он ж там большой....
Я вот не понимаю сейчас почему браузер кажет крякозябры в файле, обработанном iconv, хотя cat и less показывают в нём нормальный русский текст?. :(
Я вот не понимаю сейчас почему браузер кажет крякозябры в файле, обработанном iconv, хотя cat и less показывают в нём нормальный русский текст?. :(
-
sgfault
- Сообщения: 586
- Статус: -
Re: PDF to HTML
Вообще, можно было прикрепить и файлом, а можно было выложить только часть. Ну да неважно.
Может потому, что браузер неправильно определяет кодировку?
-
shau-kote
- Сообщения: 417
- Статус: злобный хоббит
- ОС: Arch
-
sgfault
- Сообщения: 586
- Статус: -
Re: PDF to HTML
Но вот я только так и не понял: в чем же, собственно, была причина? 'pdftohtml' записывал html-файл в utf8? Но тогда зачем его конвертировать в iso8859-5? Или у вас локаль не utf-8?
-
/dev/random
- Администратор
- Сообщения: 5456
- ОС: Gentoo
-
sgfault
- Сообщения: 586
- Статус: -
Re: PDF to HTML
ээ.. не понял, это как ? Можно поподробнее ?
-
shau-kote
- Сообщения: 417
- Статус: злобный хоббит
- ОС: Arch
Re: PDF to HTML
Локаль-то utf-ная...
Как я понял, pdftohtml пишет нормально, в utf8, а вот ОгнеЛис почему-то полагает, что этот html'ник нужно открывать, применяя ISO8859-5.
Как я понял, pdftohtml пишет нормально, в utf8, а вот ОгнеЛис почему-то полагает, что этот html'ник нужно открывать, применяя ISO8859-5.