|
$Shorox
Стаж: 15 лет 11 месяцев Сообщений: 1673
|
$Shorox ·
22-Дек-14 21:59
(10 лет назад)
rioter11
Можно просто в ABBYY FineReader распознать. Или я, как-то Вас не понял.
|
|
папаВлад
Стаж: 14 лет Сообщений: 2484
|
папаВлад ·
23-Дек-14 00:47
(спустя 2 часа 47 мин., ред. 23-Дек-14 00:47)
$Shorox", кажется rioter11, чего-то большего хочет, именно оригинал текста. Он вроде есть и его как-бы нет. Мне это напомнило файлы во флеше SWF, вот он красивый шрифт, а сцапать нельзя, хотя внутри файла текст есть и его можно вытянуть спецпрогами, но со страницы никак. Думаю тут тоже какой-то подвох заложен в самом pdf, это задача для любителей головоломок, которую, кстати, лучше решать с оригинального файла, быть может там больше подсказок.
rioter11, если полного файла нет, то ещё здесь есть немного халявы
|
|
rioter11
Стаж: 17 лет 6 месяцев Сообщений: 1654
|
rioter11 ·
23-Дек-14 02:09
(спустя 1 час 21 мин., ред. 23-Дек-14 10:50)
Цитата:
кажется rioter11, чего-то большего хочет, именно оригинал текста. Он вроде есть и его как-бы нет.
Именно так! Открывал эту пдф-шку разными редакторами - толку ноль- они там текста не видят: "редактируемый текст на странице отсутствует". Интересно было посмотреть на этот файл через LibreOffice - всё в векторе, но не в текстовом виде
Похоже, разобраться могут только спецы в формате pdf.
|
|
slava_kry
Стаж: 17 лет 9 месяцев Сообщений: 244
|
slava_kry ·
23-Дек-14 12:18
(спустя 10 часов)
rioter11
Это и есть типографский макет с скривлёнными шрифтами. Текстового слоя там нет и быть не может.
Вы можете его создать с помощью, например, ABBYY PDF Transformer+
|
|
rioter11
Стаж: 17 лет 6 месяцев Сообщений: 1654
|
rioter11 ·
23-Дек-14 13:13
(спустя 54 мин.)
Цитата:
Это и есть типографский макет с скривлёнными шрифтами. Текстового слоя там нет и быть не может.
была надежда что там всё-таки есть текст, например, спрятанный под фон/изображение страницы.
|
|
karl_karlsson
Стаж: 18 лет 5 месяцев Сообщений: 376
|
karl_karlsson ·
23-Дек-14 15:25
(спустя 2 часа 12 мин.)
rioter11
Там все шрифты перевели в векторные контуры (outlines). Это значит, что текст остается векторным, но все же шрифты отсутствуют. Поэтому и текстового слоя нет. Разные приложения Adobe этого делают. Обычно где-то есть опция Convert All Text to Outlines. Вот например:
How to Convert Fonts to Outlines in Adobe Acrobat Pro
|
|
rioter11
Стаж: 17 лет 6 месяцев Сообщений: 1654
|
rioter11 ·
23-Дек-14 15:52
(спустя 27 мин.)
Большое спасибо за информацию. А для чего это делается? - требования типографики, или, по сравнению с текстовыми шрифтами, есть какой-то выигрыш в размерах-качестве? Или это такой вид защиты?
И главный вопрос - "все шрифты перевели в векторные контуры" - а обратно как-то можно?
|
|
karl_karlsson
Стаж: 18 лет 5 месяцев Сообщений: 376
|
karl_karlsson ·
23-Дек-14 17:44
(спустя 1 час 52 мин., ред. 23-Дек-14 17:44)
rioter11
Это делается только если лицензия шрифта запрещает встраивания, но разрешает перевода в outlines. Существует миф, что так лучше получается в печати, поэтому некоторые не совсем профессиональные сервисы печати требуют это. А вот некоторые люди делают это до печати, ну чтобы избежали некоторых проблем построения PDF-а в Preflight, как в примере выше. На самом деле Preflight проходится после этого, но не становится лучше. Иногда так "защищают" шрифты. В итоги размер становится обычно больше, но качество всегда будет ниже. Вот например:
Outlining Fonts: Is It Necessary?
Обратно можно только через OCR. На данном случае:
- делаем копию документа,
- удаляем растровые элементы, изображения, фон,
- векторный текст переводим в растр 300, либо 600 dpi,
- делаем OCR,
- слой OCR переносим внутри оригинального файлика (лучше снова его копия).
|
|
rioter11
Стаж: 17 лет 6 месяцев Сообщений: 1654
|
rioter11 ·
23-Дек-14 18:04
(спустя 19 мин.)
ещё раз спасибо!
-вот же ж заморочка... придётся ocr по-старинке делать
|
|
t1mkaaa8
Стаж: 10 лет 3 месяца Сообщений: 1
|
t1mkaaa8 ·
25-Дек-14 19:17
(спустя 2 дня 1 час)
Спасибо большое Спасли студента на сессии
|
|
Paul_TC
Стаж: 16 лет 7 месяцев Сообщений: 3
|
Paul_TC ·
27-Фев-15 03:54
(спустя 2 месяца 1 день)
karl_karlsson писал(а):
66280288Обратно можно только через OCR. На данном случае:
- делаем копию документа,
- удаляем растровые элементы, изображения, фон,
- векторный текст переводим в растр 300, либо 600 dpi,
- делаем OCR,
- слой OCR переносим внутри оригинального файлика (лучше снова его копия).
Можно поподробнее расписать технологию?
Как перенести OCR-слой из распознанного FR pdf в оригинальный pdf (чтобы осталось максимальное качество+текстовый поиск)?
|
|
папаВлад
Стаж: 14 лет Сообщений: 2484
|
папаВлад ·
28-Фев-15 13:45
(спустя 1 день 9 часов)
Paul_TC писал(а):
Как перенести OCR-слой из распознанного FR pdf в оригинальный pdf (чтобы осталось максимальное качество+текстовый поиск)?
Что-то про перенос текстового слоя есть тут
https://rutr.life/forum/viewtopic.php?p=64165092#64165092
https://rutr.life/forum/viewtopic.php?p=66945808#66945808
По первой ссылке, в 11 Акробате никаких слоёв нет, видимо писалось под прошлые версии, и плагин Imposal на 11-ый не ставится.
По второй, несколько программ, доступны только на ру-борде, лень регистрироваться, заранее знаю, что всё окажется непонятно, там инструкции пишутся не для новичков.
Есть желание, изучайте, вдруг разберётесь, тогда отпишите, какой способ оказался работающим.
|
|
папаВлад
Стаж: 14 лет Сообщений: 2484
|
папаВлад ·
19-Мар-15 01:38
(спустя 18 дней)
Paul_TC писал(а):
67010890Как перенести OCR-слой из распознанного FR pdf в оригинальный pdf (чтобы осталось максимальное качество+текстовый поиск)?
Удалось разобраться и получить нужное решение с помощью Callas PDF Toolbox.
Записал для себя, в копилку знаний, и другим пригодится.
скрытый текст
перенести распознанный текст из PDF в PDF
Portable Callas PDF Toolbox v5.0.132.0
http://dfiles.ru/files/005buw7l8
Файл pdf, в который нужно вставить текстовый слой, должен быть без подложенного текста.
При наличии заранее удалить, иначе новый текст добавится к старому.
Удалить текстовый слой и получить чистый файл без текста можно согласно пункту 1.
Затем начать всё заново.
1.
File-Open
выбрать файл pdf, из которого нужен текстовый слой (например, сделанный в FR)
из него извлекаем ocr слой
tools-switchboard-arrange-slice
Check
Text objects
Execute
когда предложит, то сохранить под другим именем, это будет файл без текста.
по окончании закрыть вспомогательное окно.
2.
в окне программы закрываем файл источник, оставляем только файл с текстовым слоем.
File-Open
открываем файл, в который надо добавить текстовый слой.
в окне программы перейти на вкладку с текстовым слоем
tools-switchboard-arrange-Sandwich
Execute
на выходе получаем нужный файл с текстовым слоем, сохраняем.
-
источник: http://publ.lib.ru/cgi/forum/YaBB.pl?num=1425397691
|
|
ComboFZ
Стаж: 14 лет 1 месяц Сообщений: 150
|
ComboFZ ·
21-Мар-15 08:43
(спустя 2 дня 7 часов, ред. 21-Мар-15 08:43)
папаВлад
Дополнительно к вашим изысканиям мой пост двухгодичной давности на ru-board:
скрытый текст
http://forum.ru-board.com/topic.cgi?forum=93&topic=3514&start=800#17
Так как в FineReader 11 распознование точнее, удобна связка FR + Callas PDF Toolbox v5.0 Portable (легко найти в сети).
Открываем в Callas PDF Toolbox документ PDF с текстовым ocr-слоем полученным от FR (текст под изображением, оригин. размер бумаги, исходное разрешение картинок, кач. 40% и меньше):
закладка Tools > Switchboard > Arrange > Slice > Check: Text Objects > Execute.
Программа сохранит PDF только с изображениями от FR (как правило, не нужен). Callas не закрываем, в нём два документа, один с изображениями (можно удалить), другой - модифицированный, с текстом. Сохраняем документ с текстом File > Save, смотрим, он должен резко похудеть в размере, внутри текст без картинок. Если размер сохраненного PDF с текстом не уменьшился (такое иногда случается для jpeg CMYK, jpeg2000), значит нужна оптимизация в Акробате, чтобы удалить скрытые изображения из PDF.
Дальше.
Закидываем в Callas документ PDF с подготовленными изображениями в который хотим внедрить текстовый слой. В окне программы документ с текстом OCR делаем активным. Переходим в Switchboard > Arrange > Sandwich, жмем Execute > File > Save As... Получаем PDF с оригинальными изображениями и текстовым OCR-слоем.
Возможен вариант, когда в Arrange > Slice извлекаются не текстовые объекты, а наоборот - изображения, в этом случае снова получаем два документа с изображениями и текстом.
Возможен вариант с подменой картинок без пересжатия. В программе открываются сразу оба документа PDF: один - Original.pdf с подготовленными изображениями, другой - от FineReader с картинками и OCR-слоем (активен). Переходим в Switchboard > Versioning > Create single version. Replase & Wich: greyscale image (или Color images, несколько позиций на выбор), Document: Original.pdf. Жмем Execute > File > Save As.... В итоге в документе от FineReader картинки будут заменены картинками из Original.pdf.
|
|
папаВлад
Стаж: 14 лет Сообщений: 2484
|
папаВлад ·
27-Апр-15 20:44
(спустя 1 месяц 6 дней)
ComboFZ
К сожалению метод не применим к файлам, сделанным в Акробате по технологии ClearScan, в них при удалении текстового слоя попутно уничтожаются буквы со страниц.
Печально.
|
|
karl_karlsson
Стаж: 18 лет 5 месяцев Сообщений: 376
|
karl_karlsson ·
29-Апр-15 00:54
(спустя 1 день 4 часа)
папаВлад
Внутри PDF текстовой слой всегда связан с каким-то шрифтом.
И наоборот шрифты всегда связаны с каким-то текстовым слоем.
|
|
slava_kry
Стаж: 17 лет 9 месяцев Сообщений: 244
|
slava_kry ·
29-Апр-15 10:40
(спустя 9 часов)
|
|
папаВлад
Стаж: 14 лет Сообщений: 2484
|
папаВлад ·
29-Апр-15 18:04
(спустя 7 часов, ред. 29-Апр-15 18:04)
slava_kry
Понятно, что какой-то способ должен быть, пусть и длинный. Мой мозг не смог найти решение без пережатия.
Дополняйте, какая схема действий, желательно по-русски.
-
добавленно позже...
А, я заглянул в файл и уже понял, что ничего у Вас не вышло, есть такой косяк.
папаВлад писал(а):
67224145Файл pdf, в который нужно вставить текстовый слой, должен быть без подложенного текста.
При наличии заранее удалить, иначе новый текст добавится к старому.
|
|
slava_kry
Стаж: 17 лет 9 месяцев Сообщений: 244
|
slava_kry ·
29-Апр-15 18:48
(спустя 43 мин.)
папаВлад
тогда прав karl_karlsson
|
|
sfarent
Стаж: 16 лет 4 месяца Сообщений: 74
|
sfarent ·
27-Мар-17 13:00
(спустя 1 год 10 месяцев)
Проходят лета, а вопрос всё тот же: появилась ли какая-нибудь программа, наподобие DjvuOCR для вставки текста из FR в pdf? Чтобы не ручками одиночные файлы, а скопом все.
Если про DjvuOCR - пока ничего лучше и проще для djvu нет ни для единичных файлов, ни для пакетной обработки, но вот с pdf - не работает, беда.
А для создания возможности поиска, что с помощью 8 FR, что с помощью 12FR - разница в распознавании значения не имеет.
|
|
папаВлад
Стаж: 14 лет Сообщений: 2484
|
папаВлад ·
27-Мар-17 14:34
(спустя 1 час 34 мин., ред. 27-Мар-17 14:34)
sfarent писал(а):
72779002из FR в pdf? Чтобы не ручками одиночные файлы, а скопом все.
Как пакетно не знаю, если найдёте инструкцию, то напишите, мне тоже очень надо.
По одному из пдф в пдф вот где-то тут ссылка на видео есть, правда я сейчас чуть короче нашёл способ, немного меньше мышкой кликать и клава не нужна.
-
А что Вы про пакетную обработку в дежавю писали? Можно в двух словах, какая схема?
Допустим, есть пачка дежавю без текста, далее я по одному каждый файл кидаю в ФР и в нём изготавливаю дежавю с текстом. Затем, с помощью fr11DTLcrutch_03 из эФэРовских дежавю переношу текст в нужный дежавю, но это всё по одному файлу процедура.
|
|
sfarent
Стаж: 16 лет 4 месяца Сообщений: 74
|
sfarent ·
27-Мар-17 23:34
(спустя 9 часов, ред. 27-Мар-17 23:34)
Берёте программу DjvuOCR. Первая опция: декодирование djvu файла. Добавляете штук 20-30 файлов, чтобы суммарное количество страниц было не больше 9998. Указываете папку результатов - директорию пустого пакета FR. Все остальные опции я оставляю по умолчанию, только указываю декодирование в серый. Нажимаете "обработка". После сохраняете проект, нажимаете "создать FR8 batch". После окончания, открываете FR8, открываете нужный пакет, распознаете. По окончанию, нажимаете на любую страницу пакета.
Затем идёте обратно в DjvuOCR, открываете "пакетный режим OCR, открываете сохраненный проект, указываете папку с проектом FR? нажимаете "обработка". Собственно всё.
Единственный нюанс: DjvuOCR при записи файла не понимает кириллических имен.
За раз запускал штук 10 процессов FR. На счёт pdf пока глухо (( Как вариант - распознавать в FR? о потом кидать все в текстовый файл, чтобы проиндексировать и была возможность искать. Есть ещё вариант создать djvu... P.S. Из pdf в djvu я лет 10-ть назад перегонял через какую-то утилитку, которая кидала все pdf в многостраничные тифы. Затем батником создавал djvu. Потом как указано выше.
|
|
папаВлад
Стаж: 14 лет Сообщений: 2484
|
папаВлад ·
28-Мар-17 00:15
(спустя 40 мин.)
sfarent
Надо будет выбрать время, пощупать этот способ.
Или даже ради теста попрошу Вас обработать несколько файлов ( ссылка), хочу посмотреть результат, там пара файлов со старым шрифтом, надеюсь можно указать этот момент.
sfarent писал(а):
72782818На счёт pdf пока глухо ((
Поисковик показывает такую страницу, оттуда есть ссылка на форум публички в общий раздел, видимо энтузиаст хотел пригласить конкретно сюда.
Начал читать, да голова пухнет от изложения программиста, оставлю этот ребус Вам, чувствую Вы с ним на одной волне, может потом более доступно сможете пересказать
|
|
sfarent
Стаж: 16 лет 4 месяца Сообщений: 74
|
sfarent ·
28-Мар-17 02:00
(спустя 1 час 45 мин.)
Пощупайте. Итог распознавания не правил, распознал как есть, в старой орфографии убрал английский.
Помню, для нормального распознавания старой орфографии долго возился с СК, настраивая обработку сырых сканов. Иначе получается такая фигня, какую увидите.
|
|
папаВлад
Стаж: 14 лет Сообщений: 2484
|
папаВлад ·
28-Мар-17 02:26
(спустя 25 мин.)
sfarent
Спасибо.
Отличный результат, я тоже вручную ошибки не правлю.
Завтра ещё повторю по своей схеме из ФР12, и если ничего криминального не увижу, то пойду искать ФР8 и DjvuOCR.
|
|
Ejfr
Стаж: 13 лет 2 месяца Сообщений: 624
|
Ejfr ·
01-Апр-17 22:13
(спустя 4 дня, ред. 02-Апр-17 23:32)
Ув. автор темы, скриншоты к инструкции умерли, восстановите их, если это возможно. А что необходим обязательно FineReader-7(8) версии? Они же устарели безобразно! Если сегодня последняя версия 14! И что обязательно создавать громоздкие тиффы? В 12 версии текст распознается напрямую из DjVu. Неужели все создатели книг с ОСR так мучаются? Нет ли других способов?
|
|
sfarent
Стаж: 16 лет 4 месяца Сообщений: 74
|
sfarent ·
07-Апр-17 22:51
(спустя 6 дней)
Никто не мучается уже лет 15-ть, если только по незнанию и лени.
DjvuOCR можно найти здесь. Не оригинальный, а мод от NBELL: "Отличается тем, что не имеет проблем с пробелами и русскими именами в пути и имени файла, существенно быстрее внедряет-извлекает текст".
Действительно, косяк с кириллицей исправлен и работает быстрее.
P.S. На счёт отличий FR8 и FR12 и далее для текстового слоя писать повторно лень.
|
|
Ejfr
Стаж: 13 лет 2 месяца Сообщений: 624
|
Ejfr ·
08-Апр-17 14:36
(спустя 15 часов)
sfaren DjvuOCR найти не проблема. Ваша ссылка ведет на описание того же способа, что и здесь: "Для изготовления текстового слоя рекомендую ABBYY Finereader 8 и DjvuOCR 2.4 beta R4 mod NBell - мод известной утилиты для внедрения-извлечения текстового слоя из DjVu." По поводу ABBYY Finereader 8 мне лень повторно писать: современная операционка может вообще его не принять. Я спрашивал конкретно: о ДРУГИХ СПОСОБАХ внедрения текстового слоя (желательно без ошибок) в готовые файлы PDF и DjVu?
|
|
Loexa
Стаж: 15 лет 2 месяца Сообщений: 566
|
Loexa ·
15-Апр-17 02:57
(спустя 6 дней)
Ejfr писал(а):
72863485Я спрашивал конкретно: о ДРУГИХ СПОСОБАХ внедрения текстового слоя (желательно без ошибок) в готовые файлы PDF и DjVu?
Вот, например.
А ваще-то DjvuOCR и со свежим файнридером нормально работает.
А про PDF самому бы хотелось послушать. Есть в планах сделать пдфку, параллельную джвюшке. Из исходников, поэтому djvu2pdf не предлагать.
|
|
Ejfr
Стаж: 13 лет 2 месяца Сообщений: 624
|
Ejfr ·
18-Апр-17 15:50
(спустя 3 дня, ред. 19-Апр-17 12:20)
Loexa, спасибо за ссылку. Изучим.
Loexa писал(а):
72910825А ваще-то DjvuOCR и со свежим файнридером нормально работает.
Каким образом? Везде идет информация, что DjvuOCR, только в паре с файнридером 8 или 7. Также в вашей же ссылке сказано, что DjvuOCR, можно смело выбросить, как и старые версии файнридера.
|
|
|