- Конвертирование PDF-файлов в редактируемый формат (.doc, .rtf, .txt)
[Поиск]Аналог ABBYY PDF Transformer
Модератор: /dev/random
-
- Сообщения: 992
- ОС: Debian, Puppy
[Поиск]Аналог ABBYY PDF Transformer
Нужен аналог ABBYY PDF Transformer, с возможностью
-
- Сообщения: 1913
- Статус: zzz..z
-
- Сообщения: 2250
Re: [Поиск]Аналог ABBYY PDF Transformer
pdftohtml pdftoppm pdftops pdftosrc pdftotext 

-
- Сообщения: 3321
- Статус: Красный глаз тролля
- ОС: ArchLinux
Re: [Поиск]Аналог ABBYY PDF Transformer
Только ни одно из этих средств не годится, если нужно сохранить оригинальное форматирование.
Как вариант - можно открывать опенофисом. Но тоже не факт, что форматирование не поползет. Да и редактировать будет неудобно.
RTFM
-------
KOI8-R - патриотичная кодировка
-------
KOI8-R - патриотичная кодировка

-
- Сообщения: 2250
Re: [Поиск]Аналог ABBYY PDF Transformer
Изменить. Только автор pdf`а этого видимо не хотел, иначе бы использовал другой формат.
ЗЫ
Возможен еще и вариант преобразования "только для чтения"(для KПК или читалки...). И здесь с авторское оригинальное форматирование скорее неважно.
-
- Сообщения: 992
- ОС: Debian, Puppy
Re: [Поиск]Аналог ABBYY PDF Transformer
Необходимо сохранение исходной разметки документа;
Необходимо наличие поддержки дополнительных языков. кроме English (Russian, Bulgarian, Romanian, Ucrainian, German?)
Увидел что tesseract-ocr недавно зарелизил новую версию. Буду пробовать.
Необходимо наличие поддержки дополнительных языков. кроме English (Russian, Bulgarian, Romanian, Ucrainian, German?)
Увидел что tesseract-ocr недавно зарелизил новую версию. Буду пробовать.
-
- Сообщения: 1923
-
- Сообщения: 992
- ОС: Debian, Puppy
Re: [Поиск]Аналог ABBYY PDF Transformer
Редактирует, но не конвертирует. Хотя это уже что-то - я об этом не знал. Никогда не открывал PDF в OpenOffice Draw
У меня вообще задача какая. Есть PDF на иностранном языке (мне довольно часто встречаются

Для этой цели я пользуюсь системой CAT, OmegaT в частности, но она графические файлы не принимает. Поэтому мне нужен текстовый (doc, rtf, txt и т.д)
tesseract еще не испытал. Никак не получу tiff формат, т.е. он формируется, но только с одним отдельным элементом на странице (без текста). Кто знает как получить tiff из целой страницы pdf? print screen не предлагать
-
- Сообщения: 3321
- Статус: Красный глаз тролля
- ОС: ArchLinux
Re: [Поиск]Аналог ABBYY PDF Transformer
convert file.pdf file.tiff, только ман почитайте (надо еще dpi правильно указать, кажется, ключ -D 300)
RTFM
-------
KOI8-R - патриотичная кодировка
-------
KOI8-R - патриотичная кодировка

-
- Сообщения: 2250
Re: [Поиск]Аналог ABBYY PDF Transformer
pdfedit
URL : http://sourceforge.net/projects/pdfedit/
Summary : A complete pdf document editing solution
Description :
Free pdf editing using PdfEdit. Complete editing of pdf documents is made
possible with PDFedit. You can change either raw pdf objects (for advanced
users) or use predefined gui functions. Functions can be easily added as
everything is based on a script.
У вас нет необходимых прав для просмотра вложений в этом сообщении.
-
- Сообщения: 992
- ОС: Debian, Puppy
Re: [Поиск]Аналог ABBYY PDF Transformer
Ali1 писал(а): ↑11.11.2010 19:31pdfedit
URL : http://sourceforge.net/projects/pdfedit/
Summary : A complete pdf document editing solution
Description :
Free pdf editing using PdfEdit. Complete editing of pdf documents is made
possible with PDFedit. You can change either raw pdf objects (for advanced
users) or use predefined gui functions. Functions can be easily added as
everything is based on a script.
Этот товарищ отказался корректно открыть средней сложности pdf, и жутко притормаживал.
Уж не знаю в чем дело.
-
- Сообщения: 992
- ОС: Debian, Puppy
Re: [Поиск]Аналог ABBYY PDF Transformer
Где справедливость
Счастливый пользователь пиратской копии ABBYY уже давно решил свою проблему. В 2ва клика получил качественный сконвертированный документ для редактирования с сохранением всей разметки.
Я же вкупе потратил уже более 3-4 часов, на связку существующих решений
tesseract не дает сохранение разметки (по-крайней мере, в моем случае), хорошо хоть OCR качественный - правда я не тестировал все языки.
Другая проблема, никак не могу сконвертировать pdf2tif
И теперь я как бы обязан это прочитать. А потом перейти по ссылке, в которой указывается причина и решение. А потом еще куда-то, и еще, и еще... Альтернатива

Я же вкупе потратил уже более 3-4 часов, на связку существующих решений
tesseract не дает сохранение разметки (по-крайней мере, в моем случае), хорошо хоть OCR качественный - правда я не тестировал все языки.
Другая проблема, никак не могу сконвертировать pdf2tif
Код: Выделить всё
GPL Ghostscript 8.71 (2010-02-10)
Copyright (C) 2010 Artifex Software, Inc. All rights reserved.
This software comes with NO WARRANTY: see the file PUBLIC for details.
Processing pages 1 through 4.
Page 1
Substituting font Times-Roman for TimesNewRomanPSMT.
Loading NimbusRomNo9L-Regu font from /usr/share/ghostscript/8.71/Resource/Font/NimbusRomNo9L-Regu... 2387568 1067315 4015460 2726144 3 done.
Substituting font Helvetica for ArialMT.
Loading NimbusSanL-Regu font from /usr/share/ghostscript/8.71/Resource/Font/NimbusSanL-Regu... 3760340 2400780 5038676 3675059 3 done.
Can't find CID font "ArialMT".
Substituting CID font /Adobe-Identity for /ArialMT, see doc/Use.htm#CIDFontSubstitution.
The substitute CID font "Adobe-Identity" is not provided either. Will exit with error.
Error: /undefined in findresource
Operand stack:
--dict:6/15(L)-- F12 1 --dict:6/6(L)-- --dict:6/6(L)-- ArialMT --dict:10/12(ro)(G)-- --nostringval-- CIDFontObject --dict:8/8(L)-- --dict:8/8(L)-- Adobe-Identity
Execution stack:
%interp_exit .runexec2 --nostringval-- --nostringval-- --nostringval-- 2 %stopped_push --nostringval-- --nostringval-- --nostringval-- false 1 %stopped_push 1878 1 3 %oparray_pop 1877 1 3 %oparray_pop 1861 1 3 %oparray_pop --nostringval-- --nostringval-- 2 1 4 --nostringval-- %for_pos_int_continue --nostringval-- --nostringval-- --nostringval-- --nostringval-- %array_continue --nostringval-- false 1 %stopped_push --nostringval-- %loop_continue --nostringval-- --nostringval-- --nostringval-- --nostringval-- --nostringval-- --nostringval-- %array_continue --nostringval-- --nostringval-- --nostringval-- --nostringval-- --nostringval-- %loop_continue
Dictionary stack:
--dict:1149/1684(ro)(G)-- --dict:1/20(G)-- --dict:75/200(L)-- --dict:75/200(L)-- --dict:108/127(ro)(G)-- --dict:288/300(ro)(G)-- --dict:22/25(L)-- --dict:6/8(L)-- --dict:27/40(L)--
Current allocation mode is local
Last OS error: 2
И теперь я как бы обязан это прочитать. А потом перейти по ссылке, в которой указывается причина и решение. А потом еще куда-то, и еще, и еще... Альтернатива