Преобразование PDF -> txt

Софт под Linux, разные программы, но только связанные с Linux

Модератор: /dev/random

zag
Сообщения: 102

Преобразование PDF -> txt

Сообщение zag »

В винде успешно преобразовывал FineReader-ом. Чем такую процедуру можно проделать в Линуксе? Kooka пробовал - не читает pdf. Что еще можно попробовать?
Спасибо сказали:
Аватара пользователя
t.t
Бывший модератор
Сообщения: 7390
Статус: думающий о вечном
ОС: Debian, LMDE

Re: Преобразование PDF -> txt

Сообщение t.t »

Стоп. Вопрос в чём: в PDF'е текст или картинки? Если картинки, то следующий вопрос: на каком языке? Если на русском, то никак.
¡иɯʎdʞ ин ʞɐʞ 'ɐнɔɐdʞǝdu qнεиж
Спасибо сказали:
Аватара пользователя
Trueash
Сообщения: 976
Статус: Вещий Кассандр

Re: Преобразование PDF -> txt

Сообщение Trueash »

Можно попробовать pdftohtml
"...Вы имеете право хранить молчание, все, что вы скажете, может быть использовано против вас..."
Спасибо сказали:
Аватара пользователя
t.t
Бывший модератор
Сообщения: 7390
Статус: думающий о вечном
ОС: Debian, LMDE

Re: Преобразование PDF -> txt

Сообщение t.t »

(Ash @ Воскресенье, 26 Июня 2005, 22:33) писал(а):Можно попробовать pdftohtml
Если PDF текстовый, то есть ещё pdftotext из пакета xpdf-utils. Я сам им, правда, никогда не пользовался.
¡иɯʎdʞ ин ʞɐʞ 'ɐнɔɐdʞǝdu qнεиж
Спасибо сказали:
zag
Сообщения: 102

Re: Преобразование PDF -> txt

Сообщение zag »

Вообще-то нужно и из картинок, и просто текст, и на английском и на русском.
Нашел утилиту из пакета xpdf - pdftotext, английский текст преобразует почти без проблем - строки не переводит :devil_2: , а кириллицу не хочет

Код: Выделить всё

$pdftotext cd.pdf cd.txt
Error: Couldn't open 'nameToUnicode' file '/usr/X11R6/share/xpdf/cyrillic/Bulgarian.nameToUnicode'
Чего это он болгарский требует?Даже когда английский преобразует.
Мана толкового нет :(

В этой директории есть только KOI8-R.unicodeMap
Спасибо сказали:
Аватара пользователя
nercus
Сообщения: 150

Re: Преобразование PDF -> txt

Сообщение nercus »

(zag @ Воскресенье, 26 Июня 2005, 22:51) писал(а):преобразует почти без проблем - строки не переводит

можно добавить опцию "-layout".
2.6.14-gentoo-r5
kde-3.5.0 | openbox-3.2
Deep Purple | Rob Zombie | Led Zeppelin | ДДТ
Спасибо сказали:
zag
Сообщения: 102

Re: Преобразование PDF -> txt

Сообщение zag »

Всем спасибо, pdftotext -layout и pdftohtml с инглишем работают. А с кириллицей кто-нибудь разобрался или можно забить?
Спасибо сказали:
harms
Сообщения: 6

Re: Преобразование PDF -> txt

Сообщение harms »

У меня вышеуказанные файлы (о кодировках) отстутсвуют вообще.
В /etc/xpdfrc ничего про русский язык не написано.
А с кириллицей работает на ура.
Спасибо сказали:
Аватара пользователя
Skull
Модератор
Сообщения: 2089
ОС: ALT Linux

Re: Преобразование PDF -> txt

Сообщение Skull »

(zag @ Воскресенье, 26 Июня 2005, 21:59) писал(а):В винде успешно преобразовывал FineReader-ом. Чем такую процедуру можно проделать в Линуксе? Kooka пробовал - не читает pdf. Что еще можно попробовать?
KWord из KOffice 1.3.2 читает из PDF и может сохранять хоть в текст, хоть в собственный формат, хоть в HTML. Может и редактировать. Правда, кое-что ручками приходится править (таблицы). Но конвертирует всё. С русским проблем нет.
Skull
Спасибо сказали:
zag
Сообщения: 102

Re: Преобразование PDF -> txt

Сообщение zag »

to SkullСпасибо! Странно, почему-то в эту сторону не глянул :) . KOffice и KDE, как всегда, на высоте!
Спасибо сказали: