[Поиск]Аналог ABBYY PDF Transformer

Софт под Linux, разные программы, но только связанные с Linux

Модератор: /dev/random

Аватара пользователя
shevan
Сообщения: 992
ОС: Debian, Puppy

[Поиск]Аналог ABBYY PDF Transformer

Сообщение shevan »

Нужен аналог ABBYY PDF Transformer, с возможностью

  • Конвертирование PDF-файлов в редактируемый формат (.doc, .rtf, .txt)
Спасибо сказали:
Аватара пользователя
deadhead
Сообщения: 1913
Статус: zzz..z

Re: [Поиск]Аналог ABBYY PDF Transformer

Сообщение deadhead »

как вариант ;-)
[x] close
Спасибо сказали:
Аватара пользователя
Ali1
Сообщения: 2250

Re: [Поиск]Аналог ABBYY PDF Transformer

Сообщение Ali1 »

pdftohtml pdftoppm pdftops pdftosrc pdftotext ;)
Спасибо сказали:
Аватара пользователя
eddy
Сообщения: 3321
Статус: Красный глаз тролля
ОС: ArchLinux

Re: [Поиск]Аналог ABBYY PDF Transformer

Сообщение eddy »

Ali1 писал(а):
10.11.2010 14:18
pdftohtml pdftoppm pdftops pdftosrc pdftotext ;)

Только ни одно из этих средств не годится, если нужно сохранить оригинальное форматирование.
Как вариант - можно открывать опенофисом. Но тоже не факт, что форматирование не поползет. Да и редактировать будет неудобно.
RTFM
-------
KOI8-R - патриотичная кодировка Изображение
Спасибо сказали:
Аватара пользователя
Ali1
Сообщения: 2250

Re: [Поиск]Аналог ABBYY PDF Transformer

Сообщение Ali1 »


eddy писал(а):
10.11.2010 14:20
если нужно сохранить оригинальное форматирование.

Изменить. Только автор pdf`а этого видимо не хотел, иначе бы использовал другой формат.
ЗЫ
Возможен еще и вариант преобразования "только для чтения"(для KПК или читалки...). И здесь с авторское оригинальное форматирование скорее неважно.
Спасибо сказали:
Аватара пользователя
shevan
Сообщения: 992
ОС: Debian, Puppy

Re: [Поиск]Аналог ABBYY PDF Transformer

Сообщение shevan »

Необходимо сохранение исходной разметки документа;
Необходимо наличие поддержки дополнительных языков. кроме English (Russian, Bulgarian, Romanian, Ucrainian, German?)

Увидел что tesseract-ocr недавно зарелизил новую версию. Буду пробовать.
Спасибо сказали:
BIgAndy
Сообщения: 1923

Re: [Поиск]Аналог ABBYY PDF Transformer

Сообщение BIgAndy »

shevan писал(а):
10.11.2010 09:45
Конвертирование PDF-файлов в редактируемый формат (.doc, .rtf, .txt)

OpenOffice, например прекрасно справляется с этим.
Спасибо сказали:
Аватара пользователя
shevan
Сообщения: 992
ОС: Debian, Puppy

Re: [Поиск]Аналог ABBYY PDF Transformer

Сообщение shevan »

BIgAndy писал(а):
10.11.2010 20:15
shevan писал(а):
10.11.2010 09:45
Конвертирование PDF-файлов в редактируемый формат (.doc, .rtf, .txt)

OpenOffice, например прекрасно справляется с этим.

Редактирует, но не конвертирует. Хотя это уже что-то - я об этом не знал. Никогда не открывал PDF в OpenOffice Draw

У меня вообще задача какая. Есть PDF на иностранном языке (мне довольно часто встречаются :) ), хочу перевести скажем на русский с сохранением разметки, изображений, шрифтов и т.д.

Для этой цели я пользуюсь системой CAT, OmegaT в частности, но она графические файлы не принимает. Поэтому мне нужен текстовый (doc, rtf, txt и т.д)

tesseract еще не испытал. Никак не получу tiff формат, т.е. он формируется, но только с одним отдельным элементом на странице (без текста). Кто знает как получить tiff из целой страницы pdf? print screen не предлагать
Спасибо сказали:
Аватара пользователя
eddy
Сообщения: 3321
Статус: Красный глаз тролля
ОС: ArchLinux

Re: [Поиск]Аналог ABBYY PDF Transformer

Сообщение eddy »

shevan писал(а):
10.11.2010 22:55
Кто знает как получить tiff из целой страницы pdf?

convert file.pdf file.tiff, только ман почитайте (надо еще dpi правильно указать, кажется, ключ -D 300)
RTFM
-------
KOI8-R - патриотичная кодировка Изображение
Спасибо сказали:
Аватара пользователя
Ali1
Сообщения: 2250

Re: [Поиск]Аналог ABBYY PDF Transformer

Сообщение Ali1 »

pdfedit
URL : http://sourceforge.net/projects/pdfedit/
Summary : A complete pdf document editing solution
Description :
Free pdf editing using PdfEdit. Complete editing of pdf documents is made
possible with PDFedit. You can change either raw pdf objects (for advanced
users) or use predefined gui functions. Functions can be easily added as
everything is based on a script.

У вас нет необходимых прав для просмотра вложений в этом сообщении.
Спасибо сказали:
Аватара пользователя
shevan
Сообщения: 992
ОС: Debian, Puppy

Re: [Поиск]Аналог ABBYY PDF Transformer

Сообщение shevan »

Ali1 писал(а):
11.11.2010 19:31
pdfedit
URL : http://sourceforge.net/projects/pdfedit/
Summary : A complete pdf document editing solution
Description :
Free pdf editing using PdfEdit. Complete editing of pdf documents is made
possible with PDFedit. You can change either raw pdf objects (for advanced
users) or use predefined gui functions. Functions can be easily added as
everything is based on a script.


Этот товарищ отказался корректно открыть средней сложности pdf, и жутко притормаживал.
Уж не знаю в чем дело.
Спасибо сказали:
Аватара пользователя
shevan
Сообщения: 992
ОС: Debian, Puppy

Re: [Поиск]Аналог ABBYY PDF Transformer

Сообщение shevan »

Где справедливость :( Счастливый пользователь пиратской копии ABBYY уже давно решил свою проблему. В 2ва клика получил качественный сконвертированный документ для редактирования с сохранением всей разметки.

Я же вкупе потратил уже более 3-4 часов, на связку существующих решений
tesseract не дает сохранение разметки (по-крайней мере, в моем случае), хорошо хоть OCR качественный - правда я не тестировал все языки.
Другая проблема, никак не могу сконвертировать pdf2tif

Код: Выделить всё

GPL Ghostscript 8.71 (2010-02-10)
Copyright (C) 2010 Artifex Software, Inc.  All rights reserved.
This software comes with NO WARRANTY: see the file PUBLIC for details.
Processing pages 1 through 4.
Page 1
Substituting font Times-Roman for TimesNewRomanPSMT.
Loading NimbusRomNo9L-Regu font from /usr/share/ghostscript/8.71/Resource/Font/NimbusRomNo9L-Regu... 2387568 1067315 4015460 2726144 3 done.
Substituting font Helvetica for ArialMT.
Loading NimbusSanL-Regu font from /usr/share/ghostscript/8.71/Resource/Font/NimbusSanL-Regu... 3760340 2400780 5038676 3675059 3 done.
Can't find CID font "ArialMT".
Substituting CID font /Adobe-Identity for /ArialMT, see doc/Use.htm#CIDFontSubstitution.
The substitute CID font "Adobe-Identity" is not provided either. Will exit with error.
Error: /undefined in findresource
Operand stack:
   --dict:6/15(L)--   F12   1   --dict:6/6(L)--   --dict:6/6(L)--   ArialMT   --dict:10/12(ro)(G)--   --nostringval--   CIDFontObject   --dict:8/8(L)--   --dict:8/8(L)--   Adobe-Identity
Execution stack:
   %interp_exit   .runexec2   --nostringval--   --nostringval--   --nostringval--   2   %stopped_push   --nostringval--   --nostringval--   --nostringval--   false   1   %stopped_push   1878   1   3   %oparray_pop   1877   1   3   %oparray_pop   1861   1   3   %oparray_pop   --nostringval--   --nostringval--   2   1   4   --nostringval--   %for_pos_int_continue   --nostringval--   --nostringval--   --nostringval--   --nostringval--   %array_continue   --nostringval--   false   1   %stopped_push   --nostringval--   %loop_continue   --nostringval--   --nostringval--   --nostringval--   --nostringval--   --nostringval--   --nostringval--   %array_continue   --nostringval--   --nostringval--   --nostringval--   --nostringval--   --nostringval--   %loop_continue
Dictionary stack:
   --dict:1149/1684(ro)(G)--   --dict:1/20(G)--   --dict:75/200(L)--   --dict:75/200(L)--   --dict:108/127(ro)(G)--   --dict:288/300(ro)(G)--   --dict:22/25(L)--   --dict:6/8(L)--   --dict:27/40(L)--
Current allocation mode is local
Last OS error: 2

И теперь я как бы обязан это прочитать. А потом перейти по ссылке, в которой указывается причина и решение. А потом еще куда-то, и еще, и еще... Альтернатива
Спасибо сказали: