Преобразование PDF -> txt
Модератор: /dev/random
-
- Сообщения: 102
Преобразование PDF -> txt
В винде успешно преобразовывал FineReader-ом. Чем такую процедуру можно проделать в Линуксе? Kooka пробовал - не читает pdf. Что еще можно попробовать?
-
- Бывший модератор
- Сообщения: 7390
- Статус: думающий о вечном
- ОС: Debian, LMDE
Re: Преобразование PDF -> txt
Стоп. Вопрос в чём: в PDF'е текст или картинки? Если картинки, то следующий вопрос: на каком языке? Если на русском, то никак.
¡иɯʎdʞ ин ʞɐʞ 'ɐнɔɐdʞǝdu qнεиж
-
- Сообщения: 976
- Статус: Вещий Кассандр
Re: Преобразование PDF -> txt
Можно попробовать pdftohtml
"...Вы имеете право хранить молчание, все, что вы скажете, может быть использовано против вас..."
-
- Бывший модератор
- Сообщения: 7390
- Статус: думающий о вечном
- ОС: Debian, LMDE
Re: Преобразование PDF -> txt
Если PDF текстовый, то есть ещё pdftotext из пакета xpdf-utils. Я сам им, правда, никогда не пользовался.(Ash @ Воскресенье, 26 Июня 2005, 22:33) писал(а):Можно попробовать pdftohtml
¡иɯʎdʞ ин ʞɐʞ 'ɐнɔɐdʞǝdu qнεиж
-
- Сообщения: 102
Re: Преобразование PDF -> txt
Вообще-то нужно и из картинок, и просто текст, и на английском и на русском.
Нашел утилиту из пакета xpdf - pdftotext, английский текст преобразует почти без проблем - строки не переводит :devil_2: , а кириллицу не хочетЧего это он болгарский требует?Даже когда английский преобразует.
Мана толкового нет
В этой директории есть только KOI8-R.unicodeMap
Нашел утилиту из пакета xpdf - pdftotext, английский текст преобразует почти без проблем - строки не переводит :devil_2: , а кириллицу не хочет
Код: Выделить всё
$pdftotext cd.pdf cd.txt
Error: Couldn't open 'nameToUnicode' file '/usr/X11R6/share/xpdf/cyrillic/Bulgarian.nameToUnicode'
Мана толкового нет

В этой директории есть только KOI8-R.unicodeMap
-
- Сообщения: 150
Re: Преобразование PDF -> txt
(zag @ Воскресенье, 26 Июня 2005, 22:51) писал(а):преобразует почти без проблем - строки не переводит
можно добавить опцию "-layout".
2.6.14-gentoo-r5
kde-3.5.0 | openbox-3.2
Deep Purple | Rob Zombie | Led Zeppelin | ДДТ
kde-3.5.0 | openbox-3.2
Deep Purple | Rob Zombie | Led Zeppelin | ДДТ
-
- Сообщения: 102
Re: Преобразование PDF -> txt
Всем спасибо, pdftotext -layout и pdftohtml с инглишем работают. А с кириллицей кто-нибудь разобрался или можно забить?
-
- Сообщения: 6
Re: Преобразование PDF -> txt
У меня вышеуказанные файлы (о кодировках) отстутсвуют вообще.
В /etc/xpdfrc ничего про русский язык не написано.
А с кириллицей работает на ура.
В /etc/xpdfrc ничего про русский язык не написано.
А с кириллицей работает на ура.
-
- Модератор
- Сообщения: 2089
- ОС: ALT Linux
Re: Преобразование PDF -> txt
KWord из KOffice 1.3.2 читает из PDF и может сохранять хоть в текст, хоть в собственный формат, хоть в HTML. Может и редактировать. Правда, кое-что ручками приходится править (таблицы). Но конвертирует всё. С русским проблем нет.(zag @ Воскресенье, 26 Июня 2005, 21:59) писал(а):В винде успешно преобразовывал FineReader-ом. Чем такую процедуру можно проделать в Линуксе? Kooka пробовал - не читает pdf. Что еще можно попробовать?
Skull
-
- Сообщения: 102
Re: Преобразование PDF -> txt
to SkullСпасибо! Странно, почему-то в эту сторону не глянул
. KOffice и KDE, как всегда, на высоте!
