Мир Ролевых Игр
Смежные Темы => Жизнь => Тема начата: Sar от Сентября 02, 2013, 20:33
-
Товарищи нужен совет! Задача такая: необходимо повырезать куски текста из формата pdf в doc, обычные конвертировщики меняют только формат и перенося текст из pdf в doc получаются картинки на всю страницу и вырезать из них текст не представляется возможным. Как можно это решить?
Пишу тут так как уважаемые создатели игровых систем и переводчики наверняка должны знать...
-
А что происходит, когда ты просто удаляешь картинку из сконвертированного дока?
-
Даже Adobe Acrobat не помог?
пдф распознаный или оеф/окр?
-
зависит от PDF.
текст внутри PDF может быть в виде картинок, а может быть в виде текста, а может быть и третьей форме (ни то ни сё - да, так бывает, pdf- очень хитровывернутый формат).
Попробуйте выделить кусоче текста в ридере - если получится скопировать его как текст, можно выдрать разными конверторами типа ghostscript. Если нет - то нет.
-
А что происходит, когда ты просто удаляешь картинку из сконвертированного дока?
Просто удаляется картинка, фишка в том что там все страницы в виде картинок а текст идет как уже элемент этой картинки.
Даже Adobe Acrobat не помог?
пдф распознаный или оеф/окр?
Хм, про Acrobat как то вылетело из головы... Да, распознанный.
В общем с некоторыми pdf канает внаглую когда сохраняешь как формат txt, но у некоторых при таком сохранении идет жуткая каша...
Попробуйте выделить кусоче текста в ридере - если получится скопировать его как текст, можно выдрать разными конверторами типа ghostscript. Если нет - то нет.
Ага, получилось! Понял как в Fine Readere текст выделять)) Всем спасибо за оперативные ответы!