Создание электронных книг из сканов: как получить DjVu или PDF из бумажной книги?

Страницы :   Пред.  1, 2, 3, 4, 5  След.
Ответить
 

Gh@nz

Стаж: 17 лет 5 месяцев

Сообщений: 3137


Gh@nz · 06-Мар-24 09:50 (2 месяца 25 дней назад, ред. 06-Мар-24 09:50)

petoleg
У вас стоит Майкрософт Офис, официально купленный? И сколько из его возможностей вы используете?
Ну это же не серьезный разговор)))
ФШ - разрабатывался не как прога, которая будут использоваться на 100%, а как совокупность инструментов, которую каждый подбирает и собирает под себя.
Я не "нырял" пока в СТ и СК, но по обработке думаю там делать нечего, сборка - да.
SI{AY
Цитата:
Но посмотреть в плане обработки книг тоже есть что. https://www.youtube.com/playlist?list=PLtX2JBh28dABhvKs2ae3P0bod31I_dMWO но для начала лучше посмотреть
На этом и учился (я человеку столько крови попил, что страшно вспомнить). Все скачано и пересмотрено как минимум по раз 5. В целом ушел немного дальше. Но повторюсь, книги еще не обрабатывал.
Цитата:
так как записанные операции всё равно применяются не так быстро.
Боюсь, не совсем вас понял.
[Профиль]  [ЛС] 

petoleg

Стаж: 17 лет

Сообщений: 717


petoleg · 06-Мар-24 16:38 (спустя 6 часов, ред. 06-Мар-24 16:38)

Gh@nz писал(а):
85975205petoleg
У вас стоит Майкрософт Офис, официально купленный? И сколько из его возможностей вы используете?
Ну это же не серьезный разговор)))
Почему не серьезный?
Офис 2003. Покупался еще с первым ноутом. В 2004 году. Корпоративка. Устанавливается с образа.
По поводу возможностей... В то время преподавал "оператора компьютерного набора и верстки" так что в теме... 90% функций 90% пользователей не использует от слова совсем. Шрифты, стили и прочие красивости не нужны есть компьютер использовать в качестве печатной машинки...
Цитата:
ФШ - разрабатывался не как прога, которая будут использоваться на 100%, а как совокупность инструментов, которую каждый подбирает и собирает под себя.
Я не "нырял" пока в СТ и СК, но по обработке думаю там делать нечего, сборка - да.
Все-равно в какой программе будете обрабатывать сканы, хоть в СТ, хоть в ФШ, хоть в СК, хоть в Гимпе или другом графическом или спец-редакторе. На выходе вы получите графический файл (или файлы), в котором текст будет черным-черным, картинки будут картинками, выровнены размеры страниц и т.д.
Но... ФШ вы будете обрабатывать по одной странице, в СТ и СК обработка ведется всей книги. (Пакетный режим ФШ не поможет, если обрабатываются файлы разной цветности).
[Профиль]  [ЛС] 

Gh@nz

Стаж: 17 лет 5 месяцев

Сообщений: 3137


Gh@nz · 07-Мар-24 08:46 (спустя 16 часов, ред. 07-Мар-24 08:46)

petoleg
От того что вы купили функционал не изменился.
90% - я думаю 95, не меньше. Но что это меняет?
Мы про разную обработку. Да и вы про книги, я же книги пока не обрабатываю.
Да и мы чет "зарубились", я не собираюсь вас в чем то переубеждать, сказал же, у всех свои инструменты и наработки.
Скажите, а блюры, денойзер, шарперы, дескрины и другие плагины там (CT, CK) тоже присутствуют?
[Профиль]  [ЛС] 

aawaaw

Стаж: 14 лет 10 месяцев

Сообщений: 502


aawaaw · 07-Мар-24 09:56 (спустя 1 час 10 мин.)

в СК - присутствуют. Но ведут себя частенько не так, как в ФШ. Не вполне идентично, иногда не совсем те рычажки регулировок.
[Профиль]  [ЛС] 

Gh@nz

Стаж: 17 лет 5 месяцев

Сообщений: 3137


Gh@nz · 07-Мар-24 14:24 (спустя 4 часа)

aawaaw
Ага, позже посмотрю (когда буду книги обрабатывать) что там и как.
Тут главное, человек фразой о покупке софта увел меня в другую степь)))
petoleg
Я так понимаю появление СТ, СК и иже с ними обусловлено уходом от "громоздкости" ФШ, путем выделения основных и самых распространенных инструментов, по типу "этого за глаза, остальное для дрочеров".
Идея супер, я (вспоминая свои первые потуги с ФШ) всеми руками и ногами ЗА!
Но смотря на вашу цепочку (как дилетант), которая для меня выглядит как костыль с костылем и костылем подпирает, я думаю а что хуже - ФШ или вот такое нагромождение написанных на коленке прог.
От чего ушли, к тому и пришли, просто в другой форме извращения....
[Профиль]  [ЛС] 

petoleg

Стаж: 17 лет

Сообщений: 717


petoleg · 07-Мар-24 15:31 (спустя 1 час 7 мин.)

Gh@nz писал(а):
petoleg
Я так понимаю появление СТ, СК и иже с ними обусловлено уходом от "громоздкости" ФШ, путем выделения основных и самых распространенных инструментов, по типу "этого за глаза, остальное для дрочеров".
Идея супер, я (вспоминая свои первые потуги с ФШ) всеми руками и ногами ЗА!
Но смотря на вашу цепочку (как дилетант), которая для меня выглядит как костыль с костылем и костылем подпирает, я думаю а что хуже - ФШ или вот такое нагромождение написанных на коленке прог.
От чего ушли, к тому и пришли, просто в другой форме извращения....
Развитие данных программ шло параллельно ФШ. Писались программы для конкретных целей (Телор - 2007 год, Кромсатор еще раньше, судя по всему для Колхоза, а это ранние 2000-е) и с ФШ имеют мало общего хоть по идеологии, хоть по практическому воплощению. (Не надо говорить что и там и там кнопочки одинаковые).
Сделают программу, которая будет:
а) понятная
б) выполнять все предназначенные для нее задачи
в) бесплатная
тогда поговорим о костыля...
По поводу цепочки используемых мной программ я же писал для каких целей они используются.
Цитата:
Scan Tailor Featured -> ST Split -> FSViewer -> OIS -> DjVu Small v0.4 -> DjVu Imager v2.9
Scan Tailor Featured - резка сканов
FSViewer - проверка резки\деления, вшивание "Маде ин...", чистка больших пятен, клонирование букв\кусков.
ST Split - деление на слои
OIS при необходимости чистка фона, выравнивание цветов (стандартная в Микро-Офисе)
DjVu Small v0.4 - кодирование текста
DjVu Imager v2.9 - кодирование картинок и сшивка в один файл с картинками
В принципе, этот кусок "Scan Tailor Featured -> ST Split -> FSViewer -> OIS ->" можно делать в графическом редакторе. Любом - не любом не знаю. Зависит от функционала. К примеру, я не знаю вообще возможен ли предпросмотр файлов в ФШ полноэкранный перед загрузкой файла на обработку и с переходом по файлам стрелками или кнопками с обновлением предпросмотра.
Другой вопрос, как поведет себя то-же ФШ если в него загрузить пару-тройку сотен сканов TIFF полноцвет 600 dpi А4. Это не типовая задача, но встречаются и такие, для обработки книги.
+ для каждого файла будет куча временных (исходник, слои и т.д)
[Профиль]  [ЛС] 

Gh@nz

Стаж: 17 лет 5 месяцев

Сообщений: 3137


Gh@nz · 07-Мар-24 18:28 (спустя 2 часа 56 мин., ред. 07-Мар-24 18:28)

petoleg
Я закидываю в ФШ 200-300 (больше не кидаю, т.к. нет такой необходимости) TIFF полноцвет 600 dpi сканов (но не А4) на обработку. TIFF 600 dpi - мой минимум, меньше даже не сканю.
Цитата:
Сделают программу, которая будет:
а) понятная
б) выполнять все предназначенные для нее задачи
Так это ФШ. То что не бесплатная, так это условность.
Цитата:
возможен ли предпросмотр файлов в ФШ полноэкранный перед загрузкой файла на обработку и с переходом по файлам стрелками или кнопками с обновлением предпросмотра.
Не представляю данное действо в реальности. Что это? Зачем?
Это хорошо что вы знаете что такое слои и маски, но к чему это? Вы же их не используете.
[Профиль]  [ЛС] 

mcach

Top Bonus 01* 300GB

Стаж: 14 лет 6 месяцев

Сообщений: 1111

mcach · 07-Мар-24 18:35 (спустя 7 мин.)

petoleg писал(а):
85980449К примеру, я не знаю вообще возможен ли предпросмотр файлов в ФШ полноэкранный перед загрузкой файла на обработку и с переходом по файлам стрелками или кнопками с обновлением предпросмотра.
Возможен, только это делается в Bridge
petoleg писал(а):
85980449Другой вопрос, как поведет себя то-же ФШ если в него загрузить пару-тройку сотен сканов TIFF полноцвет 600 dpi А4.
ФШ ограничивает только количество одновременно открытых файлов - 400 штук максимум (в некоторых версиях и того меньше), всё остальное зависит от компа.
[Профиль]  [ЛС] 

Gh@nz

Стаж: 17 лет 5 месяцев

Сообщений: 3137


Gh@nz · 07-Мар-24 18:40 (спустя 4 мин.)

mcach
Цитата:
400 штук максимум
Даже есть ограничение, не знал.
[Профиль]  [ЛС] 

MakardiPro

Лауреат конкурса

Стаж: 6 лет 1 месяц

Сообщений: 296

MakardiPro · 28-Май-24 06:00 (спустя 2 месяца 20 дней)

Возник вот такой интересный вопрос, который правда лишь косвенно касается обработки в программах, что в инструкции, но тем не менее.
Короче почему-то на новых системах в старых программах (DJvuOCR, Workflow Manager, FR8), которые я использовал для создания дежавюшек, не умеют нормально сортировать файлы.
Выглядит это примерно так:
скрытый текст
Я уже всю голову сломал - ни в одной из перечисленных программ просто нет настройки сортировки, потому как тупо не возникало таких вопросов, я так думаю у людей, которые всем этим занимались в прошлом, потому как в системе все было, надо полагать, нормально.
И вот чего делать? Есть варианты, кроме как переходить на старые системы?
[Профиль]  [ЛС] 

SI{AY

Стаж: 16 лет 2 месяца

Сообщений: 1194

SI{AY · 28-Май-24 07:02 (спустя 1 час 2 мин.)

MakardiPro
выглядит как отсутствие натуральной сортировки. А точно было иначе? Почему бы просто файлы не называть нормально сразу с одним количеством цифр? Тот же тоталкоммандер умеет массово переименовывать.
скрытый текст
Ну и еще - почему не перейдете на более современный набор программ? Тот же DjvuSmallMod. Оболочка вокруг DEE как раз таки, более лаконичная, позволяющая большим количеством параметров рулить.
актуальный файнридер - распознаете в нем те же самые файлы которые собираете в djvu, сохраняете как djvu и переносите текстовый слой с помощью FR11 DjVu Text Layer Crutch
[Профиль]  [ЛС] 

MakardiPro

Лауреат конкурса

Стаж: 6 лет 1 месяц

Сообщений: 296

MakardiPro · 28-Май-24 09:36 (спустя 2 часа 34 мин.)

SI{AY писал(а):
86315081MakardiPro
выглядит как отсутствие натуральной сортировки. А точно было иначе? Почему бы просто файлы не называть нормально сразу с одним количеством цифр? Тот же тоталкоммандер умеет массово переименовывать.
скрытый текст
Ну и еще - почему не перейдете на более современный набор программ? Тот же DjvuSmallMod. Оболочка вокруг DEE как раз таки, более лаконичная, позволяющая большим количеством параметров рулить.
актуальный файнридер - распознаете в нем те же самые файлы которые собираете в djvu, сохраняете как djvu и переносите текстовый слой с помощью FR11 DjVu Text Layer Crutch
Ну, как сказать.
Вообще было иначе (было нормально, но почему - тоже непонятно), но какое-то время назад и по каким причинам - неизвестно.
Здесь самая большая проблема именно в тех местах, где я указал - там сортировка посимвольно работает и начинается она как раз с 10 цифры. До 10 то все более-менее нормально обычно бывает.
Причем я ж переименовывал через FAR их, по-разному делал это, всякое пробовал - никак. Ну разве что только алфавит не делал, но я думаю результат будет такой же.
И я таки нашел для себя удачную программу, в которой все прекрасно работает и хорошо сжимается - DjVuToy. И вот в ней как-раз можно менять метод сортировки.
Я пробовал в DjVu Small - не работает сортировка, такая же беда.
А касательно файнридера да, возможно так будет лучше, в самом деле.
Я просто пользовался DJVUOcr, для которого важно использование именно 8 файнридера для встройки текста в дежавюшку. Так я обычно 12 пользуюсь, но там качество файла и размер хуже. С этим, думаю, можно отдельно сейчас разобраться.
Я просто готовлю небольшой гайд, как конвертировать векторные книги в дежавю, поэтому выбор нормальных программ критически важен.
[Профиль]  [ЛС] 

aawaaw

Стаж: 14 лет 10 месяцев

Сообщений: 502


aawaaw · 28-Май-24 09:43 (спустя 6 мин., ред. 28-Май-24 09:43)

MakardiPro писал(а):
86315038И вот чего делать?
регулярно получаю подобные пачки сканов от людей. Делаю крайне просто, выравниваю число цифр с помощью массовой замены символов по шаблону в тоталкоммандере.
Допустим, в вашем примере:
шаг 1: выделяю файлы по маске "???.tif". Будут выделены _01.tif, ... _99.tif, но нетронуты _100.tif и ему подобные.
шаг 2: вызываю массовое переименование (ctrl+M), справа строку поиска "_", строку замены "_0".
шаг 3: смотрю на примеры будущих имен, если всё нравится - жму "ОК".
Готово.
Если файлы стартуют от "_1.tif", выполняю то же самое, по тому же принципу, но просто выделив девять файлов вручную, это быстрее.
оффтоп
MakardiPro писал(а):
86315374Я просто готовлю небольшой гайд, как конвертировать векторные книги в дежавю
простите, а зачем?!!
[Профиль]  [ЛС] 

MakardiPro

Лауреат конкурса

Стаж: 6 лет 1 месяц

Сообщений: 296

MakardiPro · 28-Май-24 18:31 (спустя 8 часов, ред. 28-Май-24 18:31)

aawaaw писал(а):
86315380
MakardiPro писал(а):
86315374Я просто готовлю небольшой гайд, как конвертировать векторные книги в дежавю
простите, а зачем?!!
тоже оффтоп
Ну, в основном для себя, потому что я в своих экспериментах по достижению максимальной эффективности уже намудохался и надоедает кучу времени в никуда тратить (частенько бывает, что, например, в Кромсаторе книга обрабатывается часа два-три и больше в PDF, а потом оказывается, что ошибка, НИЧЕГО не сохраняется и в итоге результат впустую). Так хоть будет выработанная тактика, потому что обработкой книг я все-таки занимаюсь не каждый день и не все отработано как полагается.
Ну и с людьми поделиться, если есть такая необходимость или желание конечно. Сомневаюсь, что кому-то шибко че-то нужно, потому что вроде как и до меня умных людей предостаточно, но, быть может, моя бы инструкция с моим методом кому-то была бы в помощь. Тем более, что старые инструкции медленно, но верно перестают быть актуальными, пусть и частично. Моя посвежее, скажем так.
В целом задачи чисто альтруистические, пусть может и не особо полезные)
[Профиль]  [ЛС] 

aawaaw

Стаж: 14 лет 10 месяцев

Сообщений: 502


aawaaw · 28-Май-24 19:57 (спустя 1 час 25 мин.)

не-не.
я про другое. зачем переводить вектор в дежавю - ? никогда так не делаю, ибо не вижу смысла.
[Профиль]  [ЛС] 

SI{AY

Стаж: 16 лет 2 месяца

Сообщений: 1194

SI{AY · 29-Май-24 02:29 (спустя 6 часов, ред. 29-Май-24 02:29)

MakardiPro писал(а):
86315374Здесь самая большая проблема именно в тех местах, где я указал - там сортировка посимвольно работает и начинается она как раз с 10 цифры. До 10 то все более-менее нормально обычно бывает.
это не так работает. У вас сортировка самая обычная, но из за того что отличие строк только на этот самый суффикс то и получаете то что получаете. Сделайте чтоб суффикс с цифрами был всегда одной длины т.е. условно 3 цифры или 4 с ведущими нулями и всё будет ок. (существует еще понятие "натуральная сортировка". но она не так часто встречается в программах)
MakardiPro писал(а):
86315374Причем я ж переименовывал через FAR их, по-разному делал это, всякое пробовал - никак. Ну разве что только алфавит не делал, но я думаю результат будет такой же.
судя по скрину вы откусили то что было ДО суффикса, а надо другое.
наглядно про ведущие нули
MakardiPro писал(а):
86315374И я таки нашел для себя удачную программу, в которой все прекрасно работает и хорошо сжимается - DjVuToy.
она чутка для другого.
MakardiPro писал(а):
86315374Я пробовал в DjVu Small - не работает сортировка, такая же беда.
я направляю в сторону DSM не из за сортировки, а из за того что то, чем вы пользуетесь - морально устарело. Плюс из коробки DSM настроен лучше (в т.ч. использует параметры из официального интерфейса которые не изменить), и качество выдает лучше.
притащил пример из документации. Хотя так накосячить в DEE надо постараться еще
DjVu Small Mod - это программный пакет для группового кодирования-декодирования в/из DjVu (OC Windows).
Пакет составлен на основе программы "Document Express Enterprise with DjVu v5.1", взятой с http://www.lizardtech.com/.
"Document Express" когда-то был одной из лучших программ для работы с DjVu. Но, к сожалению, развитие этой программы было прекращено в 2006 году. ("Document Express" фирмы Caminova - это принципиально другой продукт). И до сих пор на рынке не появилось ничего, что могло бы заменить эту старую программу 2006-го года.
DjVu Small Mod - это хакерская модификация пакета "Document Express", неофициально продолжающая его развитие. Эта модификация предоставляет пользователю следующие возможности, недоступные оригинальной программе:
Путём взлома исправлены ошибки, ограничивавшие работу некоторых параметров
Путём взлома добавлены новые параметры, добавляющие новые возможности
Дан доступ к скрытым и недокументированным функциям.
Расширена область значений старых параметров.
Добавлена поддержка Unicode и многоядерных процессоров.
Изменён интерфейс, чтобы предоставить быстрый доступ к оптимальным настройкам.
Упрощена инсталляция, благодаря малому размеру, независимости от реестра, и отсутствию защиты от копирования.
Добавлены новые профили кодирования, созданные на основе многолетнего опыта обработки электронных книг.
Добавлена подробная документация, объясняющая влияние каждого параметра на результат.
MakardiPro писал(а):
86315374Так я обычно 12 пользуюсь, но там качество файла и размер хуже. С этим, думаю, можно отдельно сейчас разобраться.
как раз не важно какое качество файла на выходе из файнридера. Нас интересует только текст и координаты. Потому самое главное чтоб геометрия сохранилась. Только распознавайте исходные сканы из которых собирали DjVu, а не сам файл DjVu, с некоторыми у фр бывают проблемы. да и просто дольше будет. (хотя если вы потом в PDF перегоняете, то встроенный CS может дать результат интереснее и тогда распознавание FR не особо то и нужно)
MakardiPro писал(а):
86315374как конвертировать векторные книги в дежавю
векторные? вы уверены в своем определении? вектор - это условно какой-нибудь PDF изначально созданные в цифровом виде из doc/tex/и т.д. Перевод в DjVu Это будет потеря в качестве.
Может Вы оговорились и имели ввиду DjVu в PDF ? ну тогда да, понятно к чему упомянутый тут DjvuToy.
MakardiPro писал(а):
86316599в Кромсаторе книга обрабатывается часа два-три и больше в PDF, а потом оказывается, что ошибка, НИЧЕГО не сохраняется и в итоге результат впустую
вот это непонятно. Вы точно прошли все стадии преподготовки сканов прежде чем кодировать? там путь немного более витиеват. Не припомню чтоб кодирование в pdf было сильно дольше djvu там
[Профиль]  [ЛС] 

MakardiPro

Лауреат конкурса

Стаж: 6 лет 1 месяц

Сообщений: 296

MakardiPro · 29-Май-24 09:37 (спустя 7 часов, ред. 29-Май-24 09:37)

aawaaw
SI{AY
По поводу перевода PDF в DjVu.
Предисловие
Я ищу книги на сайте Libgen, известная библиотека. И иногда там попадаются книги издательства Юрайт, которые выглядят таким образом - архив с кучей SVG файлов, которые можно открыть только в бразуере, либо в прогах типа Adobe Illustraror и прочее. Разумеется, для комфортного чтения книг это вообще не подходит и поэтому приходится как-то этот вопрос решать, в том числе и для людей в интернете, кому интересны эти книги, но нет времени\желания\сил и пр. для решения таких задач.
Существуют книги, которые, назовем это в "некондиции".
То есть в моем случае это не PDF в привычном понимании - это SVG файлы, которые представляют собой векторные картинки текста, но без самого текста.
Суммарно если страниц 300 таких сперва конвертировать в PDF (чтобы сохранить векторность), а потом собрать в единый файл, то он получается катастрофического размера. Например, как вот в этой раздаче, качайте любую книгу - поймете. (Разумеется, можно попробовать по-всякому сжать такой PDF, но меньше наверное 50 мб не получится - ну слишком много места занимает SVG и сжатие методами PDF получается плохо, потому что в архив на 10 мб же как-то запихать сумели) - (обычный PDF, о котором вы говорите - да, он маленький, но так там он и выстраивается по-другому. Он каждый раз при открытии как бы заново генерируется, это не цельная готовая картинка, как в случае с SVG, а скорее скрипт что-ли, в общем иной характер)
И, на мой взгляд, нет смысла в векторном качестве на ТАКОЙ большой размер.
Поэтому я такие книги конвертирую в Дежавю, потому что они в таком случае ГОРАЗДО эффективнее сжимаются при весьма хорошем качестве (я обычно ставлю 1200 dpi получается книга на 400 страниц примерно 3 мб).
Собственно, если покопаться, то можно найти информацию, что можно просто в каком-нибудь Adobe Acrobat просто сделать распознавание OCR и применить ClearScan, чтобы символы были такие-же векторные, но еще и с распознаванием.
Но размер-то все равно никуда не уйдет.
Поэтому было принято решение тупо конвертировать эти SVG в картинки, а картинки, в свою очередь, в DjVu.
Но, для того, чтобы сотворить такие чудеса, нужно сделать несколько замороченных шагов, потому что напрямую SVG в DjVu не конвертируется, даже в картинки его сложно конвертировать напрямую, искать действительно хороший софт у меня плохо получается.
Но я нашел метод - конвертируем на pdf24 в PDF (вот именно про это я говорил, имея ввиду PDF, который надо перегонять в Дежавю), получается по одному почему-то, потом склеиваем в PDF X-Change, потом экспортируем в ч\б тифы с качеством 1200, потом запаковываем в дежавю (через DjVuToy получалось очень неплохо, но я последую совету с DjVu Small и сделаю нормальную нумерацию, я понял о чем вы SI{AY говорили, спасибо, все старье я уже поудалял)
И отдельно по поводу
Цитата:
вот это непонятно. Вы точно прошли все стадии преподготовки сканов прежде чем кодировать? там путь немного более витиеват. Не припомню чтоб кодирование в pdf было сильно дольше djvu там
Как я обычно делаю - я сканирую книги в FR12 (оказалось в моем случае удобнее любого спец. сканера) и сканирую в качестве 300 dpi с градацией серого. Так быстрее всего.
А потом запихиваю сканы в Кромсатор, там включаю нужную обработку и ухожу по своим делам.
А что за обработка? Фильтр Ч\Б и самое главное - сглаживание, которое работает как великолепная интерполяция. Последняя моя книга, например, вот эта сделана именно по такой методике - высоченное качество и не очень большой притом размер. Но тут я слукавил с Дежавю, потому что плюнул и кодировал сразу из FR12, но это все решаемо и поправимо. Или вот тоже такая же методика. И все чудесно работает, качество получается отличное, хотя оригинальные сканы всего лишь в 300 dpi.
бОльшую часть времени занимает именно это сглаживание. Поэтому это все занимает оооочень много времени, я радею за качество материала, который выкладываю (ну, в основном конечно))) и поэтому стараюсь сделать наиболее удачно из возможных вариантов. В конце концов, ради этого мы здесь.
И проблема в том, что если сразу загонять в PDF, то можно крепко опростоволоситься - Кромсатор любит иногда мне выдавать ошибки после 3-4, иногда и 5 часов обработки (зависит от книги конечно, ну часа 2 точно может так провисеть, у меня и ПК актуален год на 2014-15, тоже не самый шустрый), то в случае ошибки масштабирования (бывает такое, просто из ничего рандомная страница за пределы ограничения вылезает и все - очень странно) PDF не сохраняется и начинай все заново.
Я теперь просто в tif их сохраняю и склеиваю потом в другой программе.
Цитата:
как раз не важно какое качество файла на выходе из файнридера. Нас интересует только текст и координаты. Потому самое главное чтоб геометрия сохранилась. Только распознавайте исходные сканы из которых собирали DjVu, а не сам файл DjVu, с некоторыми у фр бывают проблемы. да и просто дольше будет. (хотя если вы потом в PDF перегоняете, то встроенный CS может дать результат интереснее и тогда распознавание FR не особо то и нужно)
Да, я понял о чем вы сказали, я так и сделал - сохранил из FR в дежавюшку, а потом из нее через ту программу перетянул на свою нормальную конверсию текстовый слой - работает отменно, спасибо большое за подсказку.
[Профиль]  [ЛС] 

petoleg

Стаж: 17 лет

Сообщений: 717


petoleg · 29-Май-24 10:05 (спустя 27 мин.)

MakardiPro писал(а):
И отдельно по поводу
Цитата:
вот это непонятно. Вы точно прошли все стадии преподготовки сканов прежде чем кодировать? там путь немного более витиеват. Не припомню чтоб кодирование в pdf было сильно дольше djvu там
Как я обычно делаю - я сканирую книги в FR12 (оказалось в моем случае удобнее любого спец. сканера) и сканирую в качестве 300 dpi с градацией серого. Так быстрее всего.
А потом запихиваю сканы в Кромсатор, там включаю нужную обработку и ухожу по своим делам.
А что за обработка? Фильтр Ч\Б и самое главное - сглаживание, которое работает как великолепная интерполяция. Последняя моя книга, например, вот эта сделана именно по такой методике - высоченное качество и не очень большой притом размер. Но тут я слукавил с Дежавю, потому что плюнул и кодировал сразу из FR12, но это все решаемо и поправимо. Или вот тоже такая же методика. И все чудесно работает, качество получается отличное, хотя оригинальные сканы всего лишь в 300 dpi.
бОльшую часть времени занимает именно это сглаживание. Поэтому это все занимает оооочень много времени, я радею за качество материала, который выкладываю (ну, в основном конечно))) и поэтому стараюсь сделать наиболее удачно из возможных вариантов. В конце концов, ради этого мы здесь.
М-да... Какой смысл сканировать в 300 dpi и потом "сглаживать" много часов? Может просто изначально отсканировать в 600?
В приведенном примере (https://rutr.life/forum/viewtopic.php?t=6522638) - уже есть видимые потери, связанные с малым разрешением сканирования. Тонкие перемычки съелись... так что качество далеко не отличное...
[Профиль]  [ЛС] 

aawaaw

Стаж: 14 лет 10 месяцев

Сообщений: 502


aawaaw · 29-Май-24 11:23 (спустя 1 час 17 мин., ред. 29-Май-24 11:23)

MakardiPro писал(а):
86318632высоченное качество
смотрел джву. До высоченного качества там как "до Пекина раком" (с). Но на вкус и цвет все фломастеры разные.
Там, как я вижу, еще и CIS-сканер "поработал"
Думаю, вы делаете крупную ошибку, делая подъем 300дпи->1200дпи, это только современные нейронки тянут хорошо, да и то смотря какого размера мелкие детали.
И сразу выбирать в кромсаторе pdf формат выходного файла не следует. Это не рекомендуется автором программы. Надо делать в два этапа через out-task.
Ну и от автосесгментации дежавюшки никуда не ушли.
А теперь самое главное. Сглаживание заставит вытечь глаза читателя. Ужас, что вы натворили.
Вот только что в телеграм-канале нарыл старую книжку Барышникова про создание шрифтов, полистайте о важности мелких деталей. md5=DEA8C9E72964EB5E8B1EA8925A342518
да, еще:
последние версии кромсатора поддерживают перенос ocr из проекта файнридера в джву и пдф. не везде и не всегда, но для классических чб книг с иллюстрациями хватит.
[Профиль]  [ЛС] 

MakardiPro

Лауреат конкурса

Стаж: 6 лет 1 месяц

Сообщений: 296

MakardiPro · 29-Май-24 14:42 (спустя 3 часа, ред. 29-Май-24 14:49)

Цитата:
М-да... Какой смысл сканировать в 300 dpi и потом "сглаживать" много часов? Может просто изначально отсканировать в 600?
В приведенном примере (https://rutr.life/forum/viewtopic.php?t=6522638) - уже есть видимые потери, связанные с малым разрешением сканирования. Тонкие перемычки съелись... так что качество далеко не отличное...
Ну, как сказать. Сканирование книг для меня это жутко долго, потому что сканер у меня года 2012 - работает хорошо, но он довольно медленный (конкретно на качестве 600). Так бы, будь пошустрее, может и в 600 сканировал - я ж непротив, но так и реализация должна быть нормальная, у меня пока нет варианта взять сканер получше.
На скан в таком режиме времени много уходит (даже с не очень большими книгами на 600 было бы долго), обработка она сама себе спокойно обрабатывается, а я что-нибудь еще делаю.
А перемычки - ну да, частично съедены и так, но отчасти и из-за Ч\Б фильтра, который тяжеловато настраивать для страниц со слишком разнообразными параметрами - на поток не поставишь.
Да и я уже пробовал сканировать в 600 - да, хорошо, но дополнительное небольшое сглаживание все равно нужно делать.
(Вообще обычно я делаю страницы с качеством 600, но последнее время получаются по 1200, надо будет разобраться почему, хотя может и смысла в этом нет - сжатие неплохо получается в любом случае).
И конкретно эту книгу я сжимал в FR12, поэтому у того же Дежавю тут качество так себе. Чуть позже, думаю, пережму по человечески.
Цитата:
А теперь самое главное. Сглаживание заставит вытечь глаза читателя. Ужас, что вы натворили.
Хм, а почему? (Да и смотря где - у меня ж еще куча книг)
Возможно, я книги просто редко читаю, что для меня такая обработка кажется относительно нормальной.
Ну правда, смотреть на кирпичи в необработанных книгах уже надоело, этих книг просто горы.
Вообще раньше я ставил сглаживание поменьше, оставлял только интерполяцию "качества" для нормального OCR в основном.
Я не пытаюсь оправдаться, но я просто не понимаю в чем моя ошибка (кроме, разумеется, сканирования в 300 вместо 600, но сканировать книги по 500-600 страниц в 600 dpi - да с ума сойти можно, а результат будет конечно лучше, но не настолько, чтоб столько времени вбухивать в это дело. Мне б сперва сканер нормальный найти, чтоб это не превращалось все в пытку).
Ну и отчасти расчет на то, что человек, читающий такую книгу, будет читать ее не на планшете с разрешением 2к, а все же на чем-то попроще, где экран не настолько шедеврален (у меня старенький Самсунг года 2015 - ему такие книги вполне пойдут, хотя и его потолок конечно в районе 400). В частности это некая проработка на будущее - рано или поздно будет у народа и читалок и мониторов в большинстве своем большого разрешения. Вот именно для этого и делается это сглаживание - не для того, чтобы сидеть и об пиксели глаза резать, а чтоб просто читать и все.
Я может конечно и не прав, но уж не знаю.
Разумеется, как только "нормальный" (ну как минимум быстрый) сканер добуду, так пересяду на 600.
[Профиль]  [ЛС] 

aawaaw

Стаж: 14 лет 10 месяцев

Сообщений: 502


aawaaw · 29-Май-24 14:51 (спустя 8 мин., ред. 29-Май-24 14:51)

MakardiPro писал(а):
86319597Я не пытаюсь оправдаться, но я просто не понимаю в чем моя ошибка
чтобы это понять, вам нужно начать читать в бумаге распечатанные ваши книги. целиком, хотя бы две штуки страниц по 200. Тогда поймёте. На собственном здоровье это довольно быстро становится понятно, когда в глазах возникает резь и настойчиво хочется сменить занятие.
И именно читать, как новую информацию. А не глазами бегать "ай, какие ровненькие жирненькие строки".
MakardiPro писал(а):
86319597но не настолько, чтоб столько времени вбухивать в это дело
вот меня давно интересует вопрос - вы если на купленный но некачественный продукт натыкаетесь, типа гнилого лука, вы на это внимание тоже не обращаете? В супе сойдёт? Кидаете гнилые яйца на сковородку и кушаете несмотря на вонь?
[Профиль]  [ЛС] 

MakardiPro

Лауреат конкурса

Стаж: 6 лет 1 месяц

Сообщений: 296

MakardiPro · 29-Май-24 15:26 (спустя 35 мин., ред. 29-Май-24 15:26)

Цитата:
вот меня давно интересует вопрос - вы если на купленный но некачественный продукт натыкаетесь, типа гнилого лука, вы на это внимание тоже не обращаете? В супе сойдёт? Кидаете гнилые яйца на сковородку и кушаете несмотря на вонь?
Но разве получается вот НАСТОЛЬКО плохо?
Я тут щас подредил товарища почитать пару страниц из вот этой раздачи конкретно из дежавюшки - говорит, нормально. Но, конечно, возможно это не объективно и неправильно, потому что он прочел лишь несколько страниц.
Впрочем, ладно, быть может надо в самом деле поменьше качество делать. (однако, чем же тогда это будет отличаться от обычных векторных PDF, которые изначально "сглажены"? Можно ответить "там детали есть", но так и при сглаживании детали остаются, пусть может и несколько меньше)
[Профиль]  [ЛС] 

aawaaw

Стаж: 14 лет 10 месяцев

Сообщений: 502


aawaaw · 29-Май-24 15:28 (спустя 2 мин.)

MakardiPro писал(а):
86319694Но разве получается вот НАСТОЛЬКО плохо?
метод самостоятельной проверки я вам подсказал. В моей личной библиотеке две ваших раздачи будут помечены "по факту нечитаемо". Вас устраивает - и ради бога.
[Профиль]  [ЛС] 

MakardiPro

Лауреат конкурса

Стаж: 6 лет 1 месяц

Сообщений: 296

MakardiPro · 29-Май-24 15:32 (спустя 4 мин.)

aawaaw
Ну чтож, ладно. В любом случае благодарю.
Оффтоп - а не подскажете, на чем вычитаете обычно и как много?
Что предпочитаете - PDF с DjVu или электронные, типа FB2 в каком-нибудь Алридере?
Коли уж такое дело, то хочется немного изучить вопрос еще и с экранами и чтениями на них книг, и прийти к нужному результату.
[Профиль]  [ЛС] 

aawaaw

Стаж: 14 лет 10 месяцев

Сообщений: 502


aawaaw · 29-Май-24 15:52 (спустя 19 мин.)

MakardiPro писал(а):
86319730aawaaw
Оффтоп - а не подскажете, на чем вычитаете обычно и как много?
только в бумаге. Экран не дает возможности воспринять инфу. Надо - печатаю.
С экрана - крайне редко, раз в полгода - могу прочесть художку, типа фантастики. Да и вообще редко читаю. Предпочитаю дежавю, но за отсутствием оного сойдет и fb2. И то - обычно лишь перечитываю то, что ранее читал в бумаге, типа Булычева. Последнее, что так прочитал из нового - "Дуга большого круга" Крейна. В перечитываемых книгах в fb2 бесят постоянные ошибки форматирования. Прямая речь попутана, кавычки, курсив пропал. Кучи косяков. Поэтому-то только скан и дежавю.
Читаю djvu на ноутбуке 2011 года, разворотом, экран у ноута 17 дюймов. Выставляю "по ширине экрана", ложусь на кровать полулежа и на согнутых коленях ноут держу. В принципе, художка в дежавю в таком режиме читаема, если нормально обработана. Хотя приходится гонять лист чуть вверх-чуть вниз, по вертикали он не влазит.
Посмотрите мой ролик на ютьюбе о качественно сделанных книгах. Седьмой по счету, кажется.
[Профиль]  [ЛС] 

MakardiPro

Лауреат конкурса

Стаж: 6 лет 1 месяц

Сообщений: 296

MakardiPro · 29-Май-24 17:43 (спустя 1 час 50 мин.)

aawaaw писал(а):
86319783
MakardiPro писал(а):
86319730aawaaw
Оффтоп - а не подскажете, на чем вычитаете обычно и как много?
только в бумаге. Экран не дает возможности воспринять инфу. Надо - печатаю.
С экрана - крайне редко, раз в полгода - могу прочесть художку, типа фантастики. Да и вообще редко читаю. Предпочитаю дежавю, но за отсутствием оного сойдет и fb2. И то - обычно лишь перечитываю то, что ранее читал в бумаге, типа Булычева. Последнее, что так прочитал из нового - "Дуга большого круга" Крейна. В перечитываемых книгах в fb2 бесят постоянные ошибки форматирования. Прямая речь попутана, кавычки, курсив пропал. Кучи косяков. Поэтому-то только скан и дежавю.
Читаю djvu на ноутбуке 2011 года, разворотом, экран у ноута 17 дюймов. Выставляю "по ширине экрана", ложусь на кровать полулежа и на согнутых коленях ноут держу. В принципе, художка в дежавю в таком режиме читаема, если нормально обработана. Хотя приходится гонять лист чуть вверх-чуть вниз, по вертикали он не влазит.
Посмотрите мой ролик на ютьюбе о качественно сделанных книгах. Седьмой по счету, кажется.
Благодарю за ответ, это многое прояснило.
[Профиль]  [ЛС] 

petoleg

Стаж: 17 лет

Сообщений: 717


petoleg · 29-Май-24 19:56 (спустя 2 часа 13 мин., ред. 29-Май-24 19:56)

MakardiPro писал(а):
86319694
Цитата:
вот меня давно интересует вопрос - вы если на купленный но некачественный продукт натыкаетесь, типа гнилого лука, вы на это внимание тоже не обращаете? В супе сойдёт? Кидаете гнилые яйца на сковородку и кушаете несмотря на вонь?
Но разве получается вот НАСТОЛЬКО плохо?
Я тут щас подредил товарища почитать пару страниц из вот этой раздачи конкретно из дежавюшки - говорит, нормально. Но, конечно, возможно это не объективно и неправильно, потому что он прочел лишь несколько страниц.
Все зависит от исходной книги. Есть которые нормально обрабатываются при 300 dpi, есть которым надо 600 (шрифты с тонкими перемычками, с наклонным шрифтом и прочими ньюансами). К примеру, журнал Искатель современный 300 - мало, а того-же издательства журнал Подвиг - достаточно и 300.
Зависит и от того на чем сканировалось. Фото-копия, CCD или CIS-сканер. Третий - только с расшивкой книги на страницы и при недеформированной бумаге!
+ настройки сканирования. Цветность, dpi, яркость...
Для энциклопедий, судя по моему опыту, 300 dpi явно маловато. ИМХО только для сканирования для последующей вычитки. Или прямой перегонки в PDF jpg (чисто обрезка страницы\уборка фона\конвертация в PDF без изменения размеров).
Хороший вариант будет когда электронная книга не будет иметь потерь по сравнению с бумажной. Смотрите перемычки, буквы Н\П\и\н\е\а. Особенно курсив.
[Профиль]  [ЛС] 

MakardiPro

Лауреат конкурса

Стаж: 6 лет 1 месяц

Сообщений: 296

MakardiPro · 30-Май-24 06:50 (спустя 10 часов)

petoleg писал(а):
Все зависит от исходной книги. Есть которые нормально обрабатываются при 300 dpi, есть которым надо 600 (шрифты с тонкими перемычками, с наклонным шрифтом и прочими ньюансами). К примеру, журнал Искатель современный 300 - мало, а того-же издательства журнал Подвиг - достаточно и 300.
Зависит и от того на чем сканировалось. Фото-копия, CCD или CIS-сканер. Третий - только с расшивкой книги на страницы и при недеформированной бумаге!
+ настройки сканирования. Цветность, dpi, яркость...
Для энциклопедий, судя по моему опыту, 300 dpi явно маловато. ИМХО только для сканирования для последующей вычитки. Или прямой перегонки в PDF jpg (чисто обрезка страницы\уборка фона\конвертация в PDF без изменения размеров).
Хороший вариант будет когда электронная книга не будет иметь потерь по сравнению с бумажной. Смотрите перемычки, буквы Н\П\и\н\е\а. Особенно курсив.
Ну вот например сейчас единственная серьезная проблема у меня при моем скане это перемычки там, где в целом напечатано блекло. То есть страница оригинальной книги тоже сама по себе не очень удачно напечатана (как правило, часто у советских изданий такое) и не удается словить вот ту удачную грань, чтобы и детали сохранить и качество не потерять, и чтоб ч\б фильтр как надо сработал. Причем на самих сканах перемычки сохраняются, а вот при фильтрации уже возникают проблемы. Пока что я так и не придумал, как этого избежать цифровым способом (если сканировать в 600 тоже конечно такие фокусы могут возникнуть, но там явно попроще с этим. Пока нет возможности, увы).
[Профиль]  [ЛС] 

aawaaw

Стаж: 14 лет 10 месяцев

Сообщений: 502


aawaaw · 30-Май-24 07:11 (спустя 21 мин.)

покажите скан. возможно, кто-то подскажет метод.
[Профиль]  [ЛС] 

MakardiPro

Лауреат конкурса

Стаж: 6 лет 1 месяц

Сообщений: 296

MakardiPro · 30-Май-24 08:12 (спустя 1 час, ред. 30-Май-24 08:12)

aawaaw писал(а):
86321840покажите скан. возможно, кто-то подскажет метод.
скрытый текст
Несколько страниц - сканы и готовая книжка, в которой эти страницы есть уже обработанные.
Очевидно, что есть еще одна проблема - ч\б съедает шрифт, причем очень нормально так и он превращается в кашу. Обычно кстати этого не происходит, но тут почему-то вот есть. Всякие настройки уже крутил - так и не понял, с чем связано.
[Профиль]  [ЛС] 
 
Ответить
Loading...
Error