Регистрация · Вход Забыли имя или пароль?

Создание электронных книг из сканов: как получить DjVu или PDF из бумажной книги?

Страницы : Пред. 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 След.


Gh@nz Стаж: 18 лет 10 месяцев Сообщений: 3375	Gh@nz · 06-Мар-24 09:50 (1 год 7 месяцев назад, ред. 06-Мар-24 09:50) [Цитировать] petoleg У вас стоит Майкрософт Офис, официально купленный? И сколько из его возможностей вы используете? Ну это же не серьезный разговор))) ФШ - разрабатывался не как прога, которая будут использоваться на 100%, а как совокупность инструментов, которую каждый подбирает и собирает под себя. Я не "нырял" пока в СТ и СК, но по обработке думаю там делать нечего, сборка - да. SI{AY Цитата: Но посмотреть в плане обработки книг тоже есть что. https://www.youtube.com/playlist?list=PLtX2JBh28dABhvKs2ae3P0bod31I_dMWO но для начала лучше посмотреть На этом и учился (я человеку столько крови попил, что страшно вспомнить). Все скачано и пересмотрено как минимум по раз 5. В целом ушел немного дальше. Но повторюсь, книги еще не обрабатывал. Цитата: так как записанные операции всё равно применяются не так быстро. Боюсь, не совсем вас понял.
[Профиль] [ЛС]
petoleg Стаж: 18 лет 6 месяцев Сообщений: 725	petoleg · 06-Мар-24 16:38 (спустя 6 часов, ред. 06-Мар-24 16:38) [Цитировать] Gh@nz писал(а): 85975205petoleg У вас стоит Майкрософт Офис, официально купленный? И сколько из его возможностей вы используете? Ну это же не серьезный разговор))) Почему не серьезный? Офис 2003. Покупался еще с первым ноутом. В 2004 году. Корпоративка. Устанавливается с образа. По поводу возможностей... В то время преподавал "оператора компьютерного набора и верстки" так что в теме... 90% функций 90% пользователей не использует от слова совсем. Шрифты, стили и прочие красивости не нужны есть компьютер использовать в качестве печатной машинки... Цитата: ФШ - разрабатывался не как прога, которая будут использоваться на 100%, а как совокупность инструментов, которую каждый подбирает и собирает под себя. Я не "нырял" пока в СТ и СК, но по обработке думаю там делать нечего, сборка - да. Все-равно в какой программе будете обрабатывать сканы, хоть в СТ, хоть в ФШ, хоть в СК, хоть в Гимпе или другом графическом или спец-редакторе. На выходе вы получите графический файл (или файлы), в котором текст будет черным-черным, картинки будут картинками, выровнены размеры страниц и т.д. Но... ФШ вы будете обрабатывать по одной странице, в СТ и СК обработка ведется всей книги. (Пакетный режим ФШ не поможет, если обрабатываются файлы разной цветности).
[Профиль] [ЛС]
Gh@nz Стаж: 18 лет 10 месяцев Сообщений: 3375	Gh@nz · 07-Мар-24 08:46 (спустя 16 часов, ред. 07-Мар-24 08:46) [Цитировать] petoleg От того что вы купили функционал не изменился. 90% - я думаю 95, не меньше. Но что это меняет? Мы про разную обработку. Да и вы про книги, я же книги пока не обрабатываю. Да и мы чет "зарубились", я не собираюсь вас в чем то переубеждать, сказал же, у всех свои инструменты и наработки. Скажите, а блюры, денойзер, шарперы, дескрины и другие плагины там (CT, CK) тоже присутствуют?
[Профиль] [ЛС]
aawaaw Стаж: 16 лет 4 месяца Сообщений: 591	aawaaw · 07-Мар-24 09:56 (спустя 1 час 10 мин.) [Цитировать] в СК - присутствуют. Но ведут себя частенько не так, как в ФШ. Не вполне идентично, иногда не совсем те рычажки регулировок.
[Профиль] [ЛС]
Gh@nz Стаж: 18 лет 10 месяцев Сообщений: 3375	Gh@nz · 07-Мар-24 14:24 (спустя 4 часа) [Цитировать] aawaaw Ага, позже посмотрю (когда буду книги обрабатывать) что там и как. Тут главное, человек фразой о покупке софта увел меня в другую степь))) petoleg Я так понимаю появление СТ, СК и иже с ними обусловлено уходом от "громоздкости" ФШ, путем выделения основных и самых распространенных инструментов, по типу "этого за глаза, остальное для дрочеров". Идея супер, я (вспоминая свои первые потуги с ФШ) всеми руками и ногами ЗА! Но смотря на вашу цепочку (как дилетант), которая для меня выглядит как костыль с костылем и костылем подпирает, я думаю а что хуже - ФШ или вот такое нагромождение написанных на коленке прог. От чего ушли, к тому и пришли, просто в другой форме извращения....
[Профиль] [ЛС]
petoleg Стаж: 18 лет 6 месяцев Сообщений: 725	petoleg · 07-Мар-24 15:31 (спустя 1 час 7 мин.) [Цитировать] Gh@nz писал(а): petoleg Я так понимаю появление СТ, СК и иже с ними обусловлено уходом от "громоздкости" ФШ, путем выделения основных и самых распространенных инструментов, по типу "этого за глаза, остальное для дрочеров". Идея супер, я (вспоминая свои первые потуги с ФШ) всеми руками и ногами ЗА! Но смотря на вашу цепочку (как дилетант), которая для меня выглядит как костыль с костылем и костылем подпирает, я думаю а что хуже - ФШ или вот такое нагромождение написанных на коленке прог. От чего ушли, к тому и пришли, просто в другой форме извращения.... Развитие данных программ шло параллельно ФШ. Писались программы для конкретных целей (Телор - 2007 год, Кромсатор еще раньше, судя по всему для Колхоза, а это ранние 2000-е) и с ФШ имеют мало общего хоть по идеологии, хоть по практическому воплощению. (Не надо говорить что и там и там кнопочки одинаковые). Сделают программу, которая будет: а) понятная б) выполнять все предназначенные для нее задачи в) бесплатная тогда поговорим о костыля... По поводу цепочки используемых мной программ я же писал для каких целей они используются. Цитата: Scan Tailor Featured -> ST Split -> FSViewer -> OIS -> DjVu Small v0.4 -> DjVu Imager v2.9 Scan Tailor Featured - резка сканов FSViewer - проверка резки\деления, вшивание "Маде ин...", чистка больших пятен, клонирование букв\кусков. ST Split - деление на слои OIS при необходимости чистка фона, выравнивание цветов (стандартная в Микро-Офисе) DjVu Small v0.4 - кодирование текста DjVu Imager v2.9 - кодирование картинок и сшивка в один файл с картинками В принципе, этот кусок "Scan Tailor Featured -> ST Split -> FSViewer -> OIS ->" можно делать в графическом редакторе. Любом - не любом не знаю. Зависит от функционала. К примеру, я не знаю вообще возможен ли предпросмотр файлов в ФШ полноэкранный перед загрузкой файла на обработку и с переходом по файлам стрелками или кнопками с обновлением предпросмотра. Другой вопрос, как поведет себя то-же ФШ если в него загрузить пару-тройку сотен сканов TIFF полноцвет 600 dpi А4. Это не типовая задача, но встречаются и такие, для обработки книги. + для каждого файла будет куча временных (исходник, слои и т.д)
[Профиль] [ЛС]
Gh@nz Стаж: 18 лет 10 месяцев Сообщений: 3375	Gh@nz · 07-Мар-24 18:28 (спустя 2 часа 56 мин., ред. 07-Мар-24 18:28) [Цитировать] petoleg Я закидываю в ФШ 200-300 (больше не кидаю, т.к. нет такой необходимости) TIFF полноцвет 600 dpi сканов (но не А4) на обработку. TIFF 600 dpi - мой минимум, меньше даже не сканю. Цитата: Сделают программу, которая будет: а) понятная б) выполнять все предназначенные для нее задачи Так это ФШ. То что не бесплатная, так это условность. Цитата: возможен ли предпросмотр файлов в ФШ полноэкранный перед загрузкой файла на обработку и с переходом по файлам стрелками или кнопками с обновлением предпросмотра. Не представляю данное действо в реальности. Что это? Зачем? Это хорошо что вы знаете что такое слои и маски, но к чему это? Вы же их не используете.
[Профиль] [ЛС]
mcach Стаж: 15 лет 11 месяцев Сообщений: 1293	mcach · 07-Мар-24 18:35 (спустя 7 мин.) [Цитировать] petoleg писал(а): 85980449К примеру, я не знаю вообще возможен ли предпросмотр файлов в ФШ полноэкранный перед загрузкой файла на обработку и с переходом по файлам стрелками или кнопками с обновлением предпросмотра. Возможен, только это делается в Bridge petoleg писал(а): 85980449Другой вопрос, как поведет себя то-же ФШ если в него загрузить пару-тройку сотен сканов TIFF полноцвет 600 dpi А4. ФШ ограничивает только количество одновременно открытых файлов - 400 штук максимум (в некоторых версиях и того меньше), всё остальное зависит от компа.
[Профиль] [ЛС]
Gh@nz Стаж: 18 лет 10 месяцев Сообщений: 3375	Gh@nz · 07-Мар-24 18:40 (спустя 4 мин.) [Цитировать] mcach Цитата: 400 штук максимум Даже есть ограничение, не знал.
[Профиль] [ЛС]
MakardiPro Стаж: 7 лет 7 месяцев Сообщений: 390	MakardiPro · 28-Май-24 06:00 (спустя 2 месяца 20 дней) [Цитировать] Возник вот такой интересный вопрос, который правда лишь косвенно касается обработки в программах, что в инструкции, но тем не менее. Короче почему-то на новых системах в старых программах (DJvuOCR, Workflow Manager, FR8), которые я использовал для создания дежавюшек, не умеют нормально сортировать файлы. Выглядит это примерно так: скрытый текст Я уже всю голову сломал - ни в одной из перечисленных программ просто нет настройки сортировки, потому как тупо не возникало таких вопросов, я так думаю у людей, которые всем этим занимались в прошлом, потому как в системе все было, надо полагать, нормально. И вот чего делать? Есть варианты, кроме как переходить на старые системы?
[Профиль] [ЛС]
SI{AY Стаж: 17 лет 7 месяцев Сообщений: 1418	SI{AY · 28-Май-24 07:02 (спустя 1 час 2 мин.) [Цитировать] MakardiPro выглядит как отсутствие натуральной сортировки. А точно было иначе? Почему бы просто файлы не называть нормально сразу с одним количеством цифр? Тот же тоталкоммандер умеет массово переименовывать. скрытый текст Ну и еще - почему не перейдете на более современный набор программ? Тот же DjvuSmallMod. Оболочка вокруг DEE как раз таки, более лаконичная, позволяющая большим количеством параметров рулить. актуальный файнридер - распознаете в нем те же самые файлы которые собираете в djvu, сохраняете как djvu и переносите текстовый слой с помощью FR11 DjVu Text Layer Crutch
[Профиль] [ЛС]
MakardiPro Стаж: 7 лет 7 месяцев Сообщений: 390	MakardiPro · 28-Май-24 09:36 (спустя 2 часа 34 мин.) [Цитировать] SI{AY писал(а): 86315081MakardiPro выглядит как отсутствие натуральной сортировки. А точно было иначе? Почему бы просто файлы не называть нормально сразу с одним количеством цифр? Тот же тоталкоммандер умеет массово переименовывать. скрытый текст Ну и еще - почему не перейдете на более современный набор программ? Тот же DjvuSmallMod. Оболочка вокруг DEE как раз таки, более лаконичная, позволяющая большим количеством параметров рулить. актуальный файнридер - распознаете в нем те же самые файлы которые собираете в djvu, сохраняете как djvu и переносите текстовый слой с помощью FR11 DjVu Text Layer Crutch Ну, как сказать. Вообще было иначе (было нормально, но почему - тоже непонятно), но какое-то время назад и по каким причинам - неизвестно. Здесь самая большая проблема именно в тех местах, где я указал - там сортировка посимвольно работает и начинается она как раз с 10 цифры. До 10 то все более-менее нормально обычно бывает. Причем я ж переименовывал через FAR их, по-разному делал это, всякое пробовал - никак. Ну разве что только алфавит не делал, но я думаю результат будет такой же. И я таки нашел для себя удачную программу, в которой все прекрасно работает и хорошо сжимается - DjVuToy. И вот в ней как-раз можно менять метод сортировки. Я пробовал в DjVu Small - не работает сортировка, такая же беда. А касательно файнридера да, возможно так будет лучше, в самом деле. Я просто пользовался DJVUOcr, для которого важно использование именно 8 файнридера для встройки текста в дежавюшку. Так я обычно 12 пользуюсь, но там качество файла и размер хуже. С этим, думаю, можно отдельно сейчас разобраться. Я просто готовлю небольшой гайд, как конвертировать векторные книги в дежавю, поэтому выбор нормальных программ критически важен.
[Профиль] [ЛС]
aawaaw Стаж: 16 лет 4 месяца Сообщений: 591	aawaaw · 28-Май-24 09:43 (спустя 6 мин., ред. 28-Май-24 09:43) [Цитировать] MakardiPro писал(а): 86315038И вот чего делать? регулярно получаю подобные пачки сканов от людей. Делаю крайне просто, выравниваю число цифр с помощью массовой замены символов по шаблону в тоталкоммандере. Допустим, в вашем примере: шаг 1: выделяю файлы по маске "???.tif". Будут выделены _01.tif, ... _99.tif, но нетронуты _100.tif и ему подобные. шаг 2: вызываю массовое переименование (ctrl+M), справа строку поиска "_", строку замены "_0". шаг 3: смотрю на примеры будущих имен, если всё нравится - жму "ОК". Готово. Если файлы стартуют от "_1.tif", выполняю то же самое, по тому же принципу, но просто выделив девять файлов вручную, это быстрее. оффтоп MakardiPro писал(а): 86315374Я просто готовлю небольшой гайд, как конвертировать векторные книги в дежавю простите, а зачем?!!
[Профиль] [ЛС]
MakardiPro Стаж: 7 лет 7 месяцев Сообщений: 390	MakardiPro · 28-Май-24 18:31 (спустя 8 часов, ред. 28-Май-24 18:31) [Цитировать] aawaaw писал(а): 86315380 MakardiPro писал(а): 86315374Я просто готовлю небольшой гайд, как конвертировать векторные книги в дежавю простите, а зачем?!! тоже оффтоп Ну, в основном для себя, потому что я в своих экспериментах по достижению максимальной эффективности уже намудохался и надоедает кучу времени в никуда тратить (частенько бывает, что, например, в Кромсаторе книга обрабатывается часа два-три и больше в PDF, а потом оказывается, что ошибка, НИЧЕГО не сохраняется и в итоге результат впустую). Так хоть будет выработанная тактика, потому что обработкой книг я все-таки занимаюсь не каждый день и не все отработано как полагается. Ну и с людьми поделиться, если есть такая необходимость или желание конечно. Сомневаюсь, что кому-то шибко че-то нужно, потому что вроде как и до меня умных людей предостаточно, но, быть может, моя бы инструкция с моим методом кому-то была бы в помощь. Тем более, что старые инструкции медленно, но верно перестают быть актуальными, пусть и частично. Моя посвежее, скажем так. В целом задачи чисто альтруистические, пусть может и не особо полезные)
[Профиль] [ЛС]
aawaaw Стаж: 16 лет 4 месяца Сообщений: 591	aawaaw · 28-Май-24 19:57 (спустя 1 час 25 мин.) [Цитировать] не-не. я про другое. зачем переводить вектор в дежавю - ? никогда так не делаю, ибо не вижу смысла.
[Профиль] [ЛС]
SI{AY Стаж: 17 лет 7 месяцев Сообщений: 1418	SI{AY · 29-Май-24 02:29 (спустя 6 часов, ред. 29-Май-24 02:29) [Цитировать] MakardiPro писал(а): 86315374Здесь самая большая проблема именно в тех местах, где я указал - там сортировка посимвольно работает и начинается она как раз с 10 цифры. До 10 то все более-менее нормально обычно бывает. это не так работает. У вас сортировка самая обычная, но из за того что отличие строк только на этот самый суффикс то и получаете то что получаете. Сделайте чтоб суффикс с цифрами был всегда одной длины т.е. условно 3 цифры или 4 с ведущими нулями и всё будет ок. (существует еще понятие "натуральная сортировка". но она не так часто встречается в программах) MakardiPro писал(а): 86315374Причем я ж переименовывал через FAR их, по-разному делал это, всякое пробовал - никак. Ну разве что только алфавит не делал, но я думаю результат будет такой же. судя по скрину вы откусили то что было ДО суффикса, а надо другое. наглядно про ведущие нули MakardiPro писал(а): 86315374И я таки нашел для себя удачную программу, в которой все прекрасно работает и хорошо сжимается - DjVuToy. она чутка для другого. MakardiPro писал(а): 86315374Я пробовал в DjVu Small - не работает сортировка, такая же беда. я направляю в сторону DSM не из за сортировки, а из за того что то, чем вы пользуетесь - морально устарело. Плюс из коробки DSM настроен лучше (в т.ч. использует параметры из официального интерфейса которые не изменить), и качество выдает лучше. притащил пример из документации. Хотя так накосячить в DEE надо постараться еще DjVu Small Mod - это программный пакет для группового кодирования-декодирования в/из DjVu (OC Windows). Пакет составлен на основе программы "Document Express Enterprise with DjVu v5.1", взятой с http://www.lizardtech.com/. "Document Express" когда-то был одной из лучших программ для работы с DjVu. Но, к сожалению, развитие этой программы было прекращено в 2006 году. ("Document Express" фирмы Caminova - это принципиально другой продукт). И до сих пор на рынке не появилось ничего, что могло бы заменить эту старую программу 2006-го года. DjVu Small Mod - это хакерская модификация пакета "Document Express", неофициально продолжающая его развитие. Эта модификация предоставляет пользователю следующие возможности, недоступные оригинальной программе: Путём взлома исправлены ошибки, ограничивавшие работу некоторых параметров Путём взлома добавлены новые параметры, добавляющие новые возможности Дан доступ к скрытым и недокументированным функциям. Расширена область значений старых параметров. Добавлена поддержка Unicode и многоядерных процессоров. Изменён интерфейс, чтобы предоставить быстрый доступ к оптимальным настройкам. Упрощена инсталляция, благодаря малому размеру, независимости от реестра, и отсутствию защиты от копирования. Добавлены новые профили кодирования, созданные на основе многолетнего опыта обработки электронных книг. Добавлена подробная документация, объясняющая влияние каждого параметра на результат. MakardiPro писал(а): 86315374Так я обычно 12 пользуюсь, но там качество файла и размер хуже. С этим, думаю, можно отдельно сейчас разобраться. как раз не важно какое качество файла на выходе из файнридера. Нас интересует только текст и координаты. Потому самое главное чтоб геометрия сохранилась. Только распознавайте исходные сканы из которых собирали DjVu, а не сам файл DjVu, с некоторыми у фр бывают проблемы. да и просто дольше будет. (хотя если вы потом в PDF перегоняете, то встроенный CS может дать результат интереснее и тогда распознавание FR не особо то и нужно) MakardiPro писал(а): 86315374как конвертировать векторные книги в дежавю векторные? вы уверены в своем определении? вектор - это условно какой-нибудь PDF изначально созданные в цифровом виде из doc/tex/и т.д. Перевод в DjVu Это будет потеря в качестве. Может Вы оговорились и имели ввиду DjVu в PDF ? ну тогда да, понятно к чему упомянутый тут DjvuToy. MakardiPro писал(а): 86316599в Кромсаторе книга обрабатывается часа два-три и больше в PDF, а потом оказывается, что ошибка, НИЧЕГО не сохраняется и в итоге результат впустую вот это непонятно. Вы точно прошли все стадии преподготовки сканов прежде чем кодировать? там путь немного более витиеват. Не припомню чтоб кодирование в pdf было сильно дольше djvu там
[Профиль] [ЛС]
MakardiPro Стаж: 7 лет 7 месяцев Сообщений: 390	MakardiPro · 29-Май-24 09:37 (спустя 7 часов, ред. 29-Май-24 09:37) [Цитировать] aawaaw SI{AY По поводу перевода PDF в DjVu. Предисловие Я ищу книги на сайте Libgen, известная библиотека. И иногда там попадаются книги издательства Юрайт, которые выглядят таким образом - архив с кучей SVG файлов, которые можно открыть только в бразуере, либо в прогах типа Adobe Illustraror и прочее. Разумеется, для комфортного чтения книг это вообще не подходит и поэтому приходится как-то этот вопрос решать, в том числе и для людей в интернете, кому интересны эти книги, но нет времени\желания\сил и пр. для решения таких задач. Существуют книги, которые, назовем это в "некондиции". То есть в моем случае это не PDF в привычном понимании - это SVG файлы, которые представляют собой векторные картинки текста, но без самого текста. Суммарно если страниц 300 таких сперва конвертировать в PDF (чтобы сохранить векторность), а потом собрать в единый файл, то он получается катастрофического размера. Например, как вот в этой раздаче, качайте любую книгу - поймете. (Разумеется, можно попробовать по-всякому сжать такой PDF, но меньше наверное 50 мб не получится - ну слишком много места занимает SVG и сжатие методами PDF получается плохо, потому что в архив на 10 мб же как-то запихать сумели) - (обычный PDF, о котором вы говорите - да, он маленький, но так там он и выстраивается по-другому. Он каждый раз при открытии как бы заново генерируется, это не цельная готовая картинка, как в случае с SVG, а скорее скрипт что-ли, в общем иной характер) И, на мой взгляд, нет смысла в векторном качестве на ТАКОЙ большой размер. Поэтому я такие книги конвертирую в Дежавю, потому что они в таком случае ГОРАЗДО эффективнее сжимаются при весьма хорошем качестве (я обычно ставлю 1200 dpi получается книга на 400 страниц примерно 3 мб). Собственно, если покопаться, то можно найти информацию, что можно просто в каком-нибудь Adobe Acrobat просто сделать распознавание OCR и применить ClearScan, чтобы символы были такие-же векторные, но еще и с распознаванием. Но размер-то все равно никуда не уйдет. Поэтому было принято решение тупо конвертировать эти SVG в картинки, а картинки, в свою очередь, в DjVu. Но, для того, чтобы сотворить такие чудеса, нужно сделать несколько замороченных шагов, потому что напрямую SVG в DjVu не конвертируется, даже в картинки его сложно конвертировать напрямую, искать действительно хороший софт у меня плохо получается. Но я нашел метод - конвертируем на pdf24 в PDF (вот именно про это я говорил, имея ввиду PDF, который надо перегонять в Дежавю), получается по одному почему-то, потом склеиваем в PDF X-Change, потом экспортируем в ч\б тифы с качеством 1200, потом запаковываем в дежавю (через DjVuToy получалось очень неплохо, но я последую совету с DjVu Small и сделаю нормальную нумерацию, я понял о чем вы SI{AY говорили, спасибо, все старье я уже поудалял) И отдельно по поводу Цитата: вот это непонятно. Вы точно прошли все стадии преподготовки сканов прежде чем кодировать? там путь немного более витиеват. Не припомню чтоб кодирование в pdf было сильно дольше djvu там Как я обычно делаю - я сканирую книги в FR12 (оказалось в моем случае удобнее любого спец. сканера) и сканирую в качестве 300 dpi с градацией серого. Так быстрее всего. А потом запихиваю сканы в Кромсатор, там включаю нужную обработку и ухожу по своим делам. А что за обработка? Фильтр Ч\Б и самое главное - сглаживание, которое работает как великолепная интерполяция. Последняя моя книга, например, вот эта сделана именно по такой методике - высоченное качество и не очень большой притом размер. Но тут я слукавил с Дежавю, потому что плюнул и кодировал сразу из FR12, но это все решаемо и поправимо. Или вот тоже такая же методика. И все чудесно работает, качество получается отличное, хотя оригинальные сканы всего лишь в 300 dpi. бОльшую часть времени занимает именно это сглаживание. Поэтому это все занимает оооочень много времени, я радею за качество материала, который выкладываю (ну, в основном конечно))) и поэтому стараюсь сделать наиболее удачно из возможных вариантов. В конце концов, ради этого мы здесь. И проблема в том, что если сразу загонять в PDF, то можно крепко опростоволоситься - Кромсатор любит иногда мне выдавать ошибки после 3-4, иногда и 5 часов обработки (зависит от книги конечно, ну часа 2 точно может так провисеть, у меня и ПК актуален год на 2014-15, тоже не самый шустрый), то в случае ошибки масштабирования (бывает такое, просто из ничего рандомная страница за пределы ограничения вылезает и все - очень странно) PDF не сохраняется и начинай все заново. Я теперь просто в tif их сохраняю и склеиваю потом в другой программе. Цитата: как раз не важно какое качество файла на выходе из файнридера. Нас интересует только текст и координаты. Потому самое главное чтоб геометрия сохранилась. Только распознавайте исходные сканы из которых собирали DjVu, а не сам файл DjVu, с некоторыми у фр бывают проблемы. да и просто дольше будет. (хотя если вы потом в PDF перегоняете, то встроенный CS может дать результат интереснее и тогда распознавание FR не особо то и нужно) Да, я понял о чем вы сказали, я так и сделал - сохранил из FR в дежавюшку, а потом из нее через ту программу перетянул на свою нормальную конверсию текстовый слой - работает отменно, спасибо большое за подсказку.
[Профиль] [ЛС]
petoleg Стаж: 18 лет 6 месяцев Сообщений: 725	petoleg · 29-Май-24 10:05 (спустя 27 мин.) [Цитировать] MakardiPro писал(а): И отдельно по поводу Цитата: вот это непонятно. Вы точно прошли все стадии преподготовки сканов прежде чем кодировать? там путь немного более витиеват. Не припомню чтоб кодирование в pdf было сильно дольше djvu там Как я обычно делаю - я сканирую книги в FR12 (оказалось в моем случае удобнее любого спец. сканера) и сканирую в качестве 300 dpi с градацией серого. Так быстрее всего. А потом запихиваю сканы в Кромсатор, там включаю нужную обработку и ухожу по своим делам. А что за обработка? Фильтр Ч\Б и самое главное - сглаживание, которое работает как великолепная интерполяция. Последняя моя книга, например, вот эта сделана именно по такой методике - высоченное качество и не очень большой притом размер. Но тут я слукавил с Дежавю, потому что плюнул и кодировал сразу из FR12, но это все решаемо и поправимо. Или вот тоже такая же методика. И все чудесно работает, качество получается отличное, хотя оригинальные сканы всего лишь в 300 dpi. бОльшую часть времени занимает именно это сглаживание. Поэтому это все занимает оооочень много времени, я радею за качество материала, который выкладываю (ну, в основном конечно))) и поэтому стараюсь сделать наиболее удачно из возможных вариантов. В конце концов, ради этого мы здесь. М-да... Какой смысл сканировать в 300 dpi и потом "сглаживать" много часов? Может просто изначально отсканировать в 600? В приведенном примере (https://rutr.life/forum/viewtopic.php?t=6522638) - уже есть видимые потери, связанные с малым разрешением сканирования. Тонкие перемычки съелись... так что качество далеко не отличное...
[Профиль] [ЛС]
aawaaw Стаж: 16 лет 4 месяца Сообщений: 591	aawaaw · 29-Май-24 11:23 (спустя 1 час 17 мин., ред. 29-Май-24 11:23) [Цитировать] MakardiPro писал(а): 86318632высоченное качество смотрел джву. До высоченного качества там как "до Пекина раком" (с). Но на вкус и цвет все фломастеры разные. Там, как я вижу, еще и CIS-сканер "поработал" Думаю, вы делаете крупную ошибку, делая подъем 300дпи->1200дпи, это только современные нейронки тянут хорошо, да и то смотря какого размера мелкие детали. И сразу выбирать в кромсаторе pdf формат выходного файла не следует. Это не рекомендуется автором программы. Надо делать в два этапа через out-task. Ну и от автосесгментации дежавюшки никуда не ушли. А теперь самое главное. Сглаживание заставит вытечь глаза читателя. Ужас, что вы натворили. Вот только что в телеграм-канале нарыл старую книжку Барышникова про создание шрифтов, полистайте о важности мелких деталей. md5=DEA8C9E72964EB5E8B1EA8925A342518 да, еще: последние версии кромсатора поддерживают перенос ocr из проекта файнридера в джву и пдф. не везде и не всегда, но для классических чб книг с иллюстрациями хватит.
[Профиль] [ЛС]
MakardiPro Стаж: 7 лет 7 месяцев Сообщений: 390	MakardiPro · 29-Май-24 14:42 (спустя 3 часа, ред. 29-Май-24 14:49) [Цитировать] Цитата: М-да... Какой смысл сканировать в 300 dpi и потом "сглаживать" много часов? Может просто изначально отсканировать в 600? В приведенном примере (https://rutr.life/forum/viewtopic.php?t=6522638) - уже есть видимые потери, связанные с малым разрешением сканирования. Тонкие перемычки съелись... так что качество далеко не отличное... Ну, как сказать. Сканирование книг для меня это жутко долго, потому что сканер у меня года 2012 - работает хорошо, но он довольно медленный (конкретно на качестве 600). Так бы, будь пошустрее, может и в 600 сканировал - я ж непротив, но так и реализация должна быть нормальная, у меня пока нет варианта взять сканер получше. На скан в таком режиме времени много уходит (даже с не очень большими книгами на 600 было бы долго), обработка она сама себе спокойно обрабатывается, а я что-нибудь еще делаю. А перемычки - ну да, частично съедены и так, но отчасти и из-за Ч\Б фильтра, который тяжеловато настраивать для страниц со слишком разнообразными параметрами - на поток не поставишь. Да и я уже пробовал сканировать в 600 - да, хорошо, но дополнительное небольшое сглаживание все равно нужно делать. (Вообще обычно я делаю страницы с качеством 600, но последнее время получаются по 1200, надо будет разобраться почему, хотя может и смысла в этом нет - сжатие неплохо получается в любом случае). И конкретно эту книгу я сжимал в FR12, поэтому у того же Дежавю тут качество так себе. Чуть позже, думаю, пережму по человечески. Цитата: А теперь самое главное. Сглаживание заставит вытечь глаза читателя. Ужас, что вы натворили. Хм, а почему? (Да и смотря где - у меня ж еще куча книг) Возможно, я книги просто редко читаю, что для меня такая обработка кажется относительно нормальной. Ну правда, смотреть на кирпичи в необработанных книгах уже надоело, этих книг просто горы. Вообще раньше я ставил сглаживание поменьше, оставлял только интерполяцию "качества" для нормального OCR в основном. Я не пытаюсь оправдаться, но я просто не понимаю в чем моя ошибка (кроме, разумеется, сканирования в 300 вместо 600, но сканировать книги по 500-600 страниц в 600 dpi - да с ума сойти можно, а результат будет конечно лучше, но не настолько, чтоб столько времени вбухивать в это дело. Мне б сперва сканер нормальный найти, чтоб это не превращалось все в пытку). Ну и отчасти расчет на то, что человек, читающий такую книгу, будет читать ее не на планшете с разрешением 2к, а все же на чем-то попроще, где экран не настолько шедеврален (у меня старенький Самсунг года 2015 - ему такие книги вполне пойдут, хотя и его потолок конечно в районе 400). В частности это некая проработка на будущее - рано или поздно будет у народа и читалок и мониторов в большинстве своем большого разрешения. Вот именно для этого и делается это сглаживание - не для того, чтобы сидеть и об пиксели глаза резать, а чтоб просто читать и все. Я может конечно и не прав, но уж не знаю. Разумеется, как только "нормальный" (ну как минимум быстрый) сканер добуду, так пересяду на 600.
[Профиль] [ЛС]
aawaaw Стаж: 16 лет 4 месяца Сообщений: 591	aawaaw · 29-Май-24 14:51 (спустя 8 мин., ред. 29-Май-24 14:51) [Цитировать] MakardiPro писал(а): 86319597Я не пытаюсь оправдаться, но я просто не понимаю в чем моя ошибка чтобы это понять, вам нужно начать читать в бумаге распечатанные ваши книги. целиком, хотя бы две штуки страниц по 200. Тогда поймёте. На собственном здоровье это довольно быстро становится понятно, когда в глазах возникает резь и настойчиво хочется сменить занятие. И именно читать, как новую информацию. А не глазами бегать "ай, какие ровненькие жирненькие строки". MakardiPro писал(а): 86319597но не настолько, чтоб столько времени вбухивать в это дело вот меня давно интересует вопрос - вы если на купленный но некачественный продукт натыкаетесь, типа гнилого лука, вы на это внимание тоже не обращаете? В супе сойдёт? Кидаете гнилые яйца на сковородку и кушаете несмотря на вонь?
[Профиль] [ЛС]
MakardiPro Стаж: 7 лет 7 месяцев Сообщений: 390	MakardiPro · 29-Май-24 15:26 (спустя 35 мин., ред. 29-Май-24 15:26) [Цитировать] Цитата: вот меня давно интересует вопрос - вы если на купленный но некачественный продукт натыкаетесь, типа гнилого лука, вы на это внимание тоже не обращаете? В супе сойдёт? Кидаете гнилые яйца на сковородку и кушаете несмотря на вонь? Но разве получается вот НАСТОЛЬКО плохо? Я тут щас подредил товарища почитать пару страниц из вот этой раздачи конкретно из дежавюшки - говорит, нормально. Но, конечно, возможно это не объективно и неправильно, потому что он прочел лишь несколько страниц. Впрочем, ладно, быть может надо в самом деле поменьше качество делать. (однако, чем же тогда это будет отличаться от обычных векторных PDF, которые изначально "сглажены"? Можно ответить "там детали есть", но так и при сглаживании детали остаются, пусть может и несколько меньше)
[Профиль] [ЛС]
aawaaw Стаж: 16 лет 4 месяца Сообщений: 591	aawaaw · 29-Май-24 15:28 (спустя 2 мин.) [Цитировать] MakardiPro писал(а): 86319694Но разве получается вот НАСТОЛЬКО плохо? метод самостоятельной проверки я вам подсказал. В моей личной библиотеке две ваших раздачи будут помечены "по факту нечитаемо". Вас устраивает - и ради бога.
[Профиль] [ЛС]
MakardiPro Стаж: 7 лет 7 месяцев Сообщений: 390	MakardiPro · 29-Май-24 15:32 (спустя 4 мин.) [Цитировать] aawaaw Ну чтож, ладно. В любом случае благодарю. Оффтоп - а не подскажете, на чем вычитаете обычно и как много? Что предпочитаете - PDF с DjVu или электронные, типа FB2 в каком-нибудь Алридере? Коли уж такое дело, то хочется немного изучить вопрос еще и с экранами и чтениями на них книг, и прийти к нужному результату.
[Профиль] [ЛС]
aawaaw Стаж: 16 лет 4 месяца Сообщений: 591	aawaaw · 29-Май-24 15:52 (спустя 19 мин.) [Цитировать] MakardiPro писал(а): 86319730aawaaw Оффтоп - а не подскажете, на чем вычитаете обычно и как много? только в бумаге. Экран не дает возможности воспринять инфу. Надо - печатаю. С экрана - крайне редко, раз в полгода - могу прочесть художку, типа фантастики. Да и вообще редко читаю. Предпочитаю дежавю, но за отсутствием оного сойдет и fb2. И то - обычно лишь перечитываю то, что ранее читал в бумаге, типа Булычева. Последнее, что так прочитал из нового - "Дуга большого круга" Крейна. В перечитываемых книгах в fb2 бесят постоянные ошибки форматирования. Прямая речь попутана, кавычки, курсив пропал. Кучи косяков. Поэтому-то только скан и дежавю. Читаю djvu на ноутбуке 2011 года, разворотом, экран у ноута 17 дюймов. Выставляю "по ширине экрана", ложусь на кровать полулежа и на согнутых коленях ноут держу. В принципе, художка в дежавю в таком режиме читаема, если нормально обработана. Хотя приходится гонять лист чуть вверх-чуть вниз, по вертикали он не влазит. Посмотрите мой ролик на ютьюбе о качественно сделанных книгах. Седьмой по счету, кажется.
[Профиль] [ЛС]
MakardiPro Стаж: 7 лет 7 месяцев Сообщений: 390	MakardiPro · 29-Май-24 17:43 (спустя 1 час 50 мин.) [Цитировать] aawaaw писал(а): 86319783 MakardiPro писал(а): 86319730aawaaw Оффтоп - а не подскажете, на чем вычитаете обычно и как много? только в бумаге. Экран не дает возможности воспринять инфу. Надо - печатаю. С экрана - крайне редко, раз в полгода - могу прочесть художку, типа фантастики. Да и вообще редко читаю. Предпочитаю дежавю, но за отсутствием оного сойдет и fb2. И то - обычно лишь перечитываю то, что ранее читал в бумаге, типа Булычева. Последнее, что так прочитал из нового - "Дуга большого круга" Крейна. В перечитываемых книгах в fb2 бесят постоянные ошибки форматирования. Прямая речь попутана, кавычки, курсив пропал. Кучи косяков. Поэтому-то только скан и дежавю. Читаю djvu на ноутбуке 2011 года, разворотом, экран у ноута 17 дюймов. Выставляю "по ширине экрана", ложусь на кровать полулежа и на согнутых коленях ноут держу. В принципе, художка в дежавю в таком режиме читаема, если нормально обработана. Хотя приходится гонять лист чуть вверх-чуть вниз, по вертикали он не влазит. Посмотрите мой ролик на ютьюбе о качественно сделанных книгах. Седьмой по счету, кажется. Благодарю за ответ, это многое прояснило.
[Профиль] [ЛС]
petoleg Стаж: 18 лет 6 месяцев Сообщений: 725	petoleg · 29-Май-24 19:56 (спустя 2 часа 13 мин., ред. 29-Май-24 19:56) [Цитировать] MakardiPro писал(а): 86319694 Цитата: вот меня давно интересует вопрос - вы если на купленный но некачественный продукт натыкаетесь, типа гнилого лука, вы на это внимание тоже не обращаете? В супе сойдёт? Кидаете гнилые яйца на сковородку и кушаете несмотря на вонь? Но разве получается вот НАСТОЛЬКО плохо? Я тут щас подредил товарища почитать пару страниц из вот этой раздачи конкретно из дежавюшки - говорит, нормально. Но, конечно, возможно это не объективно и неправильно, потому что он прочел лишь несколько страниц. Все зависит от исходной книги. Есть которые нормально обрабатываются при 300 dpi, есть которым надо 600 (шрифты с тонкими перемычками, с наклонным шрифтом и прочими ньюансами). К примеру, журнал Искатель современный 300 - мало, а того-же издательства журнал Подвиг - достаточно и 300. Зависит и от того на чем сканировалось. Фото-копия, CCD или CIS-сканер. Третий - только с расшивкой книги на страницы и при недеформированной бумаге! + настройки сканирования. Цветность, dpi, яркость... Для энциклопедий, судя по моему опыту, 300 dpi явно маловато. ИМХО только для сканирования для последующей вычитки. Или прямой перегонки в PDF jpg (чисто обрезка страницы\уборка фона\конвертация в PDF без изменения размеров). Хороший вариант будет когда электронная книга не будет иметь потерь по сравнению с бумажной. Смотрите перемычки, буквы Н\П\и\н\е\а. Особенно курсив.
[Профиль] [ЛС]
MakardiPro Стаж: 7 лет 7 месяцев Сообщений: 390	MakardiPro · 30-Май-24 06:50 (спустя 10 часов) [Цитировать] petoleg писал(а): Все зависит от исходной книги. Есть которые нормально обрабатываются при 300 dpi, есть которым надо 600 (шрифты с тонкими перемычками, с наклонным шрифтом и прочими ньюансами). К примеру, журнал Искатель современный 300 - мало, а того-же издательства журнал Подвиг - достаточно и 300. Зависит и от того на чем сканировалось. Фото-копия, CCD или CIS-сканер. Третий - только с расшивкой книги на страницы и при недеформированной бумаге! + настройки сканирования. Цветность, dpi, яркость... Для энциклопедий, судя по моему опыту, 300 dpi явно маловато. ИМХО только для сканирования для последующей вычитки. Или прямой перегонки в PDF jpg (чисто обрезка страницы\уборка фона\конвертация в PDF без изменения размеров). Хороший вариант будет когда электронная книга не будет иметь потерь по сравнению с бумажной. Смотрите перемычки, буквы Н\П\и\н\е\а. Особенно курсив. Ну вот например сейчас единственная серьезная проблема у меня при моем скане это перемычки там, где в целом напечатано блекло. То есть страница оригинальной книги тоже сама по себе не очень удачно напечатана (как правило, часто у советских изданий такое) и не удается словить вот ту удачную грань, чтобы и детали сохранить и качество не потерять, и чтоб ч\б фильтр как надо сработал. Причем на самих сканах перемычки сохраняются, а вот при фильтрации уже возникают проблемы. Пока что я так и не придумал, как этого избежать цифровым способом (если сканировать в 600 тоже конечно такие фокусы могут возникнуть, но там явно попроще с этим. Пока нет возможности, увы).
[Профиль] [ЛС]
aawaaw Стаж: 16 лет 4 месяца Сообщений: 591	aawaaw · 30-Май-24 07:11 (спустя 21 мин.) [Цитировать] покажите скан. возможно, кто-то подскажет метод.
[Профиль] [ЛС]
MakardiPro Стаж: 7 лет 7 месяцев Сообщений: 390	MakardiPro · 30-Май-24 08:12 (спустя 1 час, ред. 30-Май-24 08:12) [Цитировать] aawaaw писал(а): 86321840покажите скан. возможно, кто-то подскажет метод. скрытый текст https://file.io/sYgqBI3w3zXE Несколько страниц - сканы и готовая книжка, в которой эти страницы есть уже обработанные. Очевидно, что есть еще одна проблема - ч\б съедает шрифт, причем очень нормально так и он превращается в кашу. Обычно кстати этого не происходит, но тут почему-то вот есть. Всякие настройки уже крутил - так и не понял, с чем связано.
[Профиль] [ЛС]

Страница 4 из 10

Страницы : Пред. 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 След.

Главная » Книги и журналы » Правила "Книг и журналов", помощь, предложения по улучшению, сканирование » Сканирование, обработка сканов

Loading...

Error