Регистрация · Вход Забыли имя или пароль?

Инструкция: как сделать ВЫДЕЛЕНИЕ/КОПИРОВАНИЕ текста & ПОИСК (Ctrl+F) в PDF & DjVu (добавление OCR-слоя)

Страницы : Пред. 1, 2, 3, 4 След.


$Shorox Стаж: 17 лет 5 месяцев Сообщений: 1673	$Shorox · 22-Дек-14 21:59 (11 лет 7 месяцев назад) [Цитировать] rioter11 Можно просто в ABBYY FineReader распознать. Или я, как-то Вас не понял.
[Профиль] [ЛС]
папаВлад Стаж: 15 лет 7 месяцев Сообщений: 2587	папаВлад · 23-Дек-14 00:47 (спустя 2 часа 47 мин., ред. 23-Дек-14 00:47) [Цитировать] $Shorox", кажется rioter11, чего-то большего хочет, именно оригинал текста. Он вроде есть и его как-бы нет. Мне это напомнило файлы во флеше SWF, вот он красивый шрифт, а сцапать нельзя, хотя внутри файла текст есть и его можно вытянуть спецпрогами, но со страницы никак. Думаю тут тоже какой-то подвох заложен в самом pdf, это задача для любителей головоломок, которую, кстати, лучше решать с оригинального файла, быть может там больше подсказок. скрытый текст 13,6 МБ http://www.litres.ru/pages/download_prew/?file=11339167 rioter11, если полного файла нет, то ещё здесь есть немного халявы скрытый текст https://books.google.ru/books?id=Uf-hBQAAQBAJ&printsec=frontcover&hl=ru#v...mp;q&f=false
[Профиль] [ЛС]
rioter11 Стаж: 19 лет Сообщений: 1648	rioter11 · 23-Дек-14 02:09 (спустя 1 час 21 мин., ред. 23-Дек-14 10:50) [Цитировать] Цитата: кажется rioter11, чего-то большего хочет, именно оригинал текста. Он вроде есть и его как-бы нет. Именно так! Открывал эту пдф-шку разными редакторами - толку ноль- они там текста не видят: "редактируемый текст на странице отсутствует". Интересно было посмотреть на этот файл через LibreOffice - всё в векторе, но не в текстовом виде Похоже, разобраться могут только спецы в формате pdf.
[Профиль] [ЛС]
slava_kry Стаж: 19 лет 3 месяца Сообщений: 261	slava_kry · 23-Дек-14 12:18 (спустя 10 часов) [Цитировать] rioter11 Это и есть типографский макет с скривлёнными шрифтами. Текстового слоя там нет и быть не может. Вы можете его создать с помощью, например, ABBYY PDF Transformer+
[Профиль] [ЛС]
rioter11 Стаж: 19 лет Сообщений: 1648	rioter11 · 23-Дек-14 13:13 (спустя 54 мин.) [Цитировать] Цитата: Это и есть типографский макет с скривлёнными шрифтами. Текстового слоя там нет и быть не может. была надежда что там всё-таки есть текст, например, спрятанный под фон/изображение страницы.
[Профиль] [ЛС]
karl_karlsson Стаж: 19 лет 11 месяцев Сообщений: 378	karl_karlsson · 23-Дек-14 15:25 (спустя 2 часа 12 мин.) [Цитировать] rioter11 Там все шрифты перевели в векторные контуры (outlines). Это значит, что текст остается векторным, но все же шрифты отсутствуют. Поэтому и текстового слоя нет. Разные приложения Adobe этого делают. Обычно где-то есть опция Convert All Text to Outlines. Вот например: How to Convert Fonts to Outlines in Adobe Acrobat Pro
[Профиль] [ЛС]
rioter11 Стаж: 19 лет Сообщений: 1648	rioter11 · 23-Дек-14 15:52 (спустя 27 мин.) [Цитировать] Большое спасибо за информацию. А для чего это делается? - требования типографики, или, по сравнению с текстовыми шрифтами, есть какой-то выигрыш в размерах-качестве? Или это такой вид защиты? И главный вопрос - "все шрифты перевели в векторные контуры" - а обратно как-то можно?
[Профиль] [ЛС]
karl_karlsson Стаж: 19 лет 11 месяцев Сообщений: 378	karl_karlsson · 23-Дек-14 17:44 (спустя 1 час 52 мин., ред. 23-Дек-14 17:44) [Цитировать] rioter11 Это делается только если лицензия шрифта запрещает встраивания, но разрешает перевода в outlines. Существует миф, что так лучше получается в печати, поэтому некоторые не совсем профессиональные сервисы печати требуют это. А вот некоторые люди делают это до печати, ну чтобы избежали некоторых проблем построения PDF-а в Preflight, как в примере выше. На самом деле Preflight проходится после этого, но не становится лучше. Иногда так "защищают" шрифты. В итоги размер становится обычно больше, но качество всегда будет ниже. Вот например: Outlining Fonts: Is It Necessary? Обратно можно только через OCR. На данном случае: делаем копию документа, удаляем растровые элементы, изображения, фон, векторный текст переводим в растр 300, либо 600 dpi, делаем OCR, слой OCR переносим внутри оригинального файлика (лучше снова его копия).
[Профиль] [ЛС]
rioter11 Стаж: 19 лет Сообщений: 1648	rioter11 · 23-Дек-14 18:04 (спустя 19 мин.) [Цитировать] ещё раз спасибо! -вот же ж заморочка... придётся ocr по-старинке делать
[Профиль] [ЛС]
t1mkaaa8 Стаж: 11 лет 9 месяцев Сообщений: 1	t1mkaaa8 · 25-Дек-14 19:17 (спустя 2 дня 1 час) [Цитировать] Спасибо большое Спасли студента на сессии
[Профиль] [ЛС]
Paul_TC Стаж: 18 лет 1 месяц Сообщений: 3	Paul_TC · 27-Фев-15 03:54 (спустя 2 месяца 1 день) [Цитировать] karl_karlsson писал(а): 66280288Обратно можно только через OCR. На данном случае: делаем копию документа, удаляем растровые элементы, изображения, фон, векторный текст переводим в растр 300, либо 600 dpi, делаем OCR, слой OCR переносим внутри оригинального файлика (лучше снова его копия). Можно поподробнее расписать технологию? Как перенести OCR-слой из распознанного FR pdf в оригинальный pdf (чтобы осталось максимальное качество+текстовый поиск)?
[Профиль] [ЛС]
папаВлад Стаж: 15 лет 7 месяцев Сообщений: 2587	папаВлад · 28-Фев-15 13:45 (спустя 1 день 9 часов) [Цитировать] Paul_TC писал(а): Как перенести OCR-слой из распознанного FR pdf в оригинальный pdf (чтобы осталось максимальное качество+текстовый поиск)? Что-то про перенос текстового слоя есть тут https://rutr.life/forum/viewtopic.php?p=64165092#64165092 https://rutr.life/forum/viewtopic.php?p=66945808#66945808 По первой ссылке, в 11 Акробате никаких слоёв нет, видимо писалось под прошлые версии, и плагин Imposal на 11-ый не ставится. По второй, несколько программ, доступны только на ру-борде, лень регистрироваться, заранее знаю, что всё окажется непонятно, там инструкции пишутся не для новичков. Есть желание, изучайте, вдруг разберётесь, тогда отпишите, какой способ оказался работающим.
[Профиль] [ЛС]
папаВлад Стаж: 15 лет 7 месяцев Сообщений: 2587	папаВлад · 19-Мар-15 01:38 (спустя 18 дней) [Цитировать] Paul_TC писал(а): 67010890Как перенести OCR-слой из распознанного FR pdf в оригинальный pdf (чтобы осталось максимальное качество+текстовый поиск)? Удалось разобраться и получить нужное решение с помощью Callas PDF Toolbox. Записал для себя, в копилку знаний, и другим пригодится. скрытый текст перенести распознанный текст из PDF в PDF Portable Callas PDF Toolbox v5.0.132.0 https://rutr.life/forum/viewtopic.php?t=6717342 Файл pdf, в который нужно вставить текстовый слой, должен быть без подложенного текста. При наличии заранее удалить, иначе новый текст добавится к старому. Удалить текстовый слой и получить чистый файл без текста можно согласно пункту 1. Затем начать всё заново. 1. File-Open выбрать файл pdf, из которого нужен текстовый слой (например, сделанный в FR) из него извлекаем ocr слой tools-switchboard-arrange-slice Check Text objects Execute когда предложит, то сохранить под другим именем, это будет файл без текста. по окончании закрыть вспомогательное окно. 2. в окне программы закрываем файл источник, оставляем только файл с текстовым слоем. File-Open открываем файл, в который надо добавить текстовый слой. в окне программы перейти на вкладку с текстовым слоем tools-switchboard-arrange-Sandwich Execute на выходе получаем нужный файл с текстовым слоем, сохраняем. - источник: http://publ.lib.ru/cgi/forum/YaBB.pl?num=1425397691
[Профиль] [ЛС]
ComboFZ Стаж: 15 лет 7 месяцев Сообщений: 183	ComboFZ · 21-Мар-15 08:43 (спустя 2 дня 7 часов, ред. 21-Мар-15 08:43) [Цитировать] папаВлад Дополнительно к вашим изысканиям мой пост двухгодичной давности на ru-board: скрытый текст http://forum.ru-board.com/topic.cgi?forum=93&topic=3514&start=800#17 Так как в FineReader 11 распознование точнее, удобна связка FR + Callas PDF Toolbox v5.0 Portable (легко найти в сети). Открываем в Callas PDF Toolbox документ PDF с текстовым ocr-слоем полученным от FR (текст под изображением, оригин. размер бумаги, исходное разрешение картинок, кач. 40% и меньше): закладка Tools > Switchboard > Arrange > Slice > Check: Text Objects > Execute. Программа сохранит PDF только с изображениями от FR (как правило, не нужен). Callas не закрываем, в нём два документа, один с изображениями (можно удалить), другой - модифицированный, с текстом. Сохраняем документ с текстом File > Save, смотрим, он должен резко похудеть в размере, внутри текст без картинок. Если размер сохраненного PDF с текстом не уменьшился (такое иногда случается для jpeg CMYK, jpeg2000), значит нужна оптимизация в Акробате, чтобы удалить скрытые изображения из PDF. Дальше. Закидываем в Callas документ PDF с подготовленными изображениями в который хотим внедрить текстовый слой. В окне программы документ с текстом OCR делаем активным. Переходим в Switchboard > Arrange > Sandwich, жмем Execute > File > Save As... Получаем PDF с оригинальными изображениями и текстовым OCR-слоем. Возможен вариант, когда в Arrange > Slice извлекаются не текстовые объекты, а наоборот - изображения, в этом случае снова получаем два документа с изображениями и текстом. Возможен вариант с подменой картинок без пересжатия. В программе открываются сразу оба документа PDF: один - Original.pdf с подготовленными изображениями, другой - от FineReader с картинками и OCR-слоем (активен). Переходим в Switchboard > Versioning > Create single version. Replase & Wich: greyscale image (или Color images, несколько позиций на выбор), Document: Original.pdf. Жмем Execute > File > Save As.... В итоге в документе от FineReader картинки будут заменены картинками из Original.pdf.
[Профиль] [ЛС]
папаВлад Стаж: 15 лет 7 месяцев Сообщений: 2587	папаВлад · 27-Апр-15 20:44 (спустя 1 месяц 6 дней) [Цитировать] ComboFZ К сожалению метод не применим к файлам, сделанным в Акробате по технологии ClearScan, в них при удалении текстового слоя попутно уничтожаются буквы со страниц. Печально.
[Профиль] [ЛС]
karl_karlsson Стаж: 19 лет 11 месяцев Сообщений: 378	karl_karlsson · 29-Апр-15 00:54 (спустя 1 день 4 часа) [Цитировать] папаВлад Внутри PDF текстовой слой всегда связан с каким-то шрифтом. И наоборот шрифты всегда связаны с каким-то текстовым слоем.
[Профиль] [ЛС]
slava_kry Стаж: 19 лет 3 месяца Сообщений: 261	slava_kry · 29-Апр-15 10:40 (спустя 9 часов) [Цитировать] папаВлад CS c OCR https://yadi.sk/i/P0wqlHs4fLXzw
[Профиль] [ЛС]
папаВлад Стаж: 15 лет 7 месяцев Сообщений: 2587	папаВлад · 29-Апр-15 18:04 (спустя 7 часов, ред. 29-Апр-15 18:04) [Цитировать] slava_kry Понятно, что какой-то способ должен быть, пусть и длинный. Мой мозг не смог найти решение без пережатия. Дополняйте, какая схема действий, желательно по-русски. - добавленно позже... А, я заглянул в файл и уже понял, что ничего у Вас не вышло, есть такой косяк. папаВлад писал(а): 67224145Файл pdf, в который нужно вставить текстовый слой, должен быть без подложенного текста. При наличии заранее удалить, иначе новый текст добавится к старому.
[Профиль] [ЛС]
slava_kry Стаж: 19 лет 3 месяца Сообщений: 261	slava_kry · 29-Апр-15 18:48 (спустя 43 мин.) [Цитировать] папаВлад тогда прав karl_karlsson
[Профиль] [ЛС]
sfarent Стаж: 17 лет 10 месяцев Сообщений: 74	sfarent · 27-Мар-17 13:00 (спустя 1 год 10 месяцев) [Цитировать] Проходят лета, а вопрос всё тот же: появилась ли какая-нибудь программа, наподобие DjvuOCR для вставки текста из FR в pdf? Чтобы не ручками одиночные файлы, а скопом все. Если про DjvuOCR - пока ничего лучше и проще для djvu нет ни для единичных файлов, ни для пакетной обработки, но вот с pdf - не работает, беда. А для создания возможности поиска, что с помощью 8 FR, что с помощью 12FR - разница в распознавании значения не имеет.
[Профиль] [ЛС]
папаВлад Стаж: 15 лет 7 месяцев Сообщений: 2587	папаВлад · 27-Мар-17 14:34 (спустя 1 час 34 мин., ред. 27-Мар-17 14:34) [Цитировать] sfarent писал(а): 72779002из FR в pdf? Чтобы не ручками одиночные файлы, а скопом все. Как пакетно не знаю, если найдёте инструкцию, то напишите, мне тоже очень надо. По одному из пдф в пдф вот где-то тут ссылка на видео есть, правда я сейчас чуть короче нашёл способ, немного меньше мышкой кликать и клава не нужна. - А что Вы про пакетную обработку в дежавю писали? Можно в двух словах, какая схема? Допустим, есть пачка дежавю без текста, далее я по одному каждый файл кидаю в ФР и в нём изготавливаю дежавю с текстом. Затем, с помощью fr11DTLcrutch_03 из эФэРовских дежавю переношу текст в нужный дежавю, но это всё по одному файлу процедура.
[Профиль] [ЛС]
sfarent Стаж: 17 лет 10 месяцев Сообщений: 74	sfarent · 27-Мар-17 23:34 (спустя 9 часов, ред. 27-Мар-17 23:34) [Цитировать] Берёте программу DjvuOCR. Первая опция: декодирование djvu файла. Добавляете штук 20-30 файлов, чтобы суммарное количество страниц было не больше 9998. Указываете папку результатов - директорию пустого пакета FR. Все остальные опции я оставляю по умолчанию, только указываю декодирование в серый. Нажимаете "обработка". После сохраняете проект, нажимаете "создать FR8 batch". После окончания, открываете FR8, открываете нужный пакет, распознаете. По окончанию, нажимаете на любую страницу пакета. Затем идёте обратно в DjvuOCR, открываете "пакетный режим OCR, открываете сохраненный проект, указываете папку с проектом FR? нажимаете "обработка". Собственно всё. Единственный нюанс: DjvuOCR при записи файла не понимает кириллических имен. За раз запускал штук 10 процессов FR. На счёт pdf пока глухо (( Как вариант - распознавать в FR? о потом кидать все в текстовый файл, чтобы проиндексировать и была возможность искать. Есть ещё вариант создать djvu... P.S. Из pdf в djvu я лет 10-ть назад перегонял через какую-то утилитку, которая кидала все pdf в многостраничные тифы. Затем батником создавал djvu. Потом как указано выше.
[Профиль] [ЛС]
папаВлад Стаж: 15 лет 7 месяцев Сообщений: 2587	папаВлад · 28-Мар-17 00:15 (спустя 40 мин.) [Цитировать] sfarent Надо будет выбрать время, пощупать этот способ. Или даже ради теста попрошу Вас обработать несколько файлов (ссылка), хочу посмотреть результат, там пара файлов со старым шрифтом, надеюсь можно указать этот момент. sfarent писал(а): 72782818На счёт pdf пока глухо (( Поисковик показывает такую страницу, оттуда есть ссылка на форум публички в общий раздел, видимо энтузиаст хотел пригласить конкретно сюда. Начал читать, да голова пухнет от изложения программиста, оставлю этот ребус Вам, чувствую Вы с ним на одной волне, может потом более доступно сможете пересказать
[Профиль] [ЛС]
sfarent Стаж: 17 лет 10 месяцев Сообщений: 74	sfarent · 28-Мар-17 02:00 (спустя 1 час 45 мин.) [Цитировать] Пощупайте. Итог распознавания не правил, распознал как есть, в старой орфографии убрал английский. Помню, для нормального распознавания старой орфографии долго возился с СК, настраивая обработку сырых сканов. Иначе получается такая фигня, какую увидите.
[Профиль] [ЛС]
папаВлад Стаж: 15 лет 7 месяцев Сообщений: 2587	папаВлад · 28-Мар-17 02:26 (спустя 25 мин.) [Цитировать] sfarent Спасибо. Отличный результат, я тоже вручную ошибки не правлю. Завтра ещё повторю по своей схеме из ФР12, и если ничего криминального не увижу, то пойду искать ФР8 и DjvuOCR.
[Профиль] [ЛС]
Ejfr Стаж: 14 лет 8 месяцев Сообщений: 676	Ejfr · 01-Апр-17 22:13 (спустя 4 дня, ред. 02-Апр-17 23:32) [Цитировать] Ув. автор темы, скриншоты к инструкции умерли, восстановите их, если это возможно. А что необходим обязательно FineReader-7(8) версии? Они же устарели безобразно! Если сегодня последняя версия 14! И что обязательно создавать громоздкие тиффы? В 12 версии текст распознается напрямую из DjVu. Неужели все создатели книг с ОСR так мучаются? Нет ли других способов?
[Профиль] [ЛС]
sfarent Стаж: 17 лет 10 месяцев Сообщений: 74	sfarent · 07-Апр-17 22:51 (спустя 6 дней) [Цитировать] Никто не мучается уже лет 15-ть, если только по незнанию и лени. DjvuOCR можно найти здесь. Не оригинальный, а мод от NBELL: "Отличается тем, что не имеет проблем с пробелами и русскими именами в пути и имени файла, существенно быстрее внедряет-извлекает текст". Действительно, косяк с кириллицей исправлен и работает быстрее. P.S. На счёт отличий FR8 и FR12 и далее для текстового слоя писать повторно лень.
[Профиль] [ЛС]
Ejfr Стаж: 14 лет 8 месяцев Сообщений: 676	Ejfr · 08-Апр-17 14:36 (спустя 15 часов) [Цитировать] sfaren DjvuOCR найти не проблема. Ваша ссылка ведет на описание того же способа, что и здесь: "Для изготовления текстового слоя рекомендую ABBYY Finereader 8 и DjvuOCR 2.4 beta R4 mod NBell - мод известной утилиты для внедрения-извлечения текстового слоя из DjVu." По поводу ABBYY Finereader 8 мне лень повторно писать: современная операционка может вообще его не принять. Я спрашивал конкретно: о ДРУГИХ СПОСОБАХ внедрения текстового слоя (желательно без ошибок) в готовые файлы PDF и DjVu?
[Профиль] [ЛС]
Loexa Стаж: 16 лет 8 месяцев Сообщений: 565	Loexa · 15-Апр-17 02:57 (спустя 6 дней) [Цитировать] Ejfr писал(а): 72863485Я спрашивал конкретно: о ДРУГИХ СПОСОБАХ внедрения текстового слоя (желательно без ошибок) в готовые файлы PDF и DjVu? Вот, например. А ваще-то DjvuOCR и со свежим файнридером нормально работает. А про PDF самому бы хотелось послушать. Есть в планах сделать пдфку, параллельную джвюшке. Из исходников, поэтому djvu2pdf не предлагать.
[Профиль] [ЛС]
Ejfr Стаж: 14 лет 8 месяцев Сообщений: 676	Ejfr · 18-Апр-17 15:50 (спустя 3 дня, ред. 19-Апр-17 12:20) [Цитировать] Loexa, спасибо за ссылку. Изучим. Loexa писал(а): 72910825А ваще-то DjvuOCR и со свежим файнридером нормально работает. Каким образом? Везде идет информация, что DjvuOCR, только в паре с файнридером 8 или 7. Также в вашей же ссылке сказано, что DjvuOCR, можно смело выбросить, как и старые версии файнридера.
[Профиль] [ЛС]