Архив: Создание электронных книг из сканов: как получить DjVu или PDF из бумажной книги? [2160930]

Страницы :   Пред.  1, 2, 3 ... 13, 14, 15 ... 96, 97, 98  След.
Тема закрыта
 

monday2000

Стаж: 15 лет 9 месяцев

Сообщений: 93


monday2000 · 28-Сен-11 08:27 (14 лет назад, ред. 28-Сен-11 08:27)

Антонъ
Цитата:
Спасибо Вам большое, буду знать и пробовать!
Пожалуйста, рад был помочь.
Цитата:
Я правильно понимаю, что если сохранять в Finereader'е в PDF с опцией "Только изображение", книга получится без OCR?
Да.


Я сделал схему в картинках:
Как сделать из бумажной книги электронную (в формате DjVu)
http://www.djvu-soft.narod.ru/scan/diagram.htm
[Профиль]  [ЛС] 

Антонъ

Стаж: 18 лет 6 месяцев

Сообщений: 1281


Антонъ · 28-Сен-11 11:36 (спустя 3 часа, ред. 29-Сен-11 02:26)

monday2000
Спасибо, очень наглядная и полезная схема!
Ее изучение вызвало у меня несколько вопросов.
Scan Tailor лучше Кромсатора? Вроде тут жаловались, что Tailor плохо чистит мусор.
Почему бы не сохранять книгу с цветными картинками и обложкой сразу всю целиком в цветном режиме? Всё это разделение на субсканы, склеивание-расклеивание пугает своей сложностью
У меня еще вопрос возник - в первом посте, в руководстве, где говорится о создании вручную оглавления в Djvu, о какой программе идет речь?
Я попробовал Djvu Hiperlinks, что-то он вообще ничего не создает, хотя и страница содержания указана, и OCR есть.
Пока вышел из положения, создав содержание в виде закладок (bookmarks).
[Профиль]  [ЛС] 

monday2000

Стаж: 15 лет 9 месяцев

Сообщений: 93


monday2000 · 30-Сен-11 09:53 (спустя 1 день 22 часа, ред. 30-Сен-11 09:53)

Антонъ
Цитата:
Scan Tailor лучше Кромсатора?
Это непростой вопрос. Я бы сказал, что да, лучше. Для сканобработки необходимо иметь 3 программы:
Scan Tailor, ScanKromsator, Book Restorer. Ну ещё Irfan View по мелочи нужен порой.
Для краткости их называют: ST, SK и BR.
Этих 3-х программ вполне достаточно для сканобработки.
Кстати, ни одна из этих программ не является полностью самодостаточной.
Начинать сканобработку сырых сканов всегда следует со Scan Tailor. Если по ходу работы в Scan Tailor выясняется, что его возможностей недостаточно - то нужно после Scan Tailor дообработать сканы то ли в ScanKromsator, то ли в Book Restorer.
Возможны и более сложные комбинации последовательного использования этой тройки программ:
ST - SK- ST
ST - SK- BR
Порядок и последовательность использования этих 3-х программ зависит от вида и качества конкретных сырых сканов. Какая-то чёткая схема сканобработки пока невозможна - слишком уж разнообразны бывают исходные сырые сканы.
Цитата:
Вроде тут жаловались, что Tailor плохо чистит мусор.
Если речь идёт об автоматической чистке мусора (Despeckle), то ничего не могу сказать - я лично не замечал там ничего плохого. А вот если говорить о ручной чистке - то она в СТ очень неудобно сделана - как заливка белыми зонами. В СК это гораздо легче - там мышкой грязь выделяете (держа при этом кнопку мыши нажатой), и при отпускании кнопки мыши грязь стирается (или подвергается Despeckle'у - опционально).
Цитата:
Почему бы не сохранять книгу с цветными картинками и обложкой сразу всю целиком в цветном режиме?
То есть "делать DjVu-книгу целиком в одной программе"?
К этому всё движется - постепенно. Видимо, Scan Tailor будет постепенно обрастать новыми удобствами - до тех пор, пока не превратится в решение "всё-в-одном". Но этому сильно мешает политика автора Scan Tailor - который намеренно ориентирует Scan Tailor на умение обрабатывать высококачественные сырые сканы, и соответственно на намеренное неумение обрабатывать низкокачественные сырые сканы. Такая политика, конечно, сильно упрощает интерфейс программы - но делает СТ принципиально неполноценным. Такой дурной и неправильной политики начисто лишён ScanKromsator - однако у него зато чудовищно нелепый и дико неудобный интерфейс.
Цитата:
Всё это разделение на субсканы, склеивание-расклеивание пугает своей сложностью
Именно этот момент как раз совершенно нетруден. Просто несколько непривычен поначалу. Для этого есть детальнейшая инструкция: http://www.djvu-soft.narod.ru/scan/djvu_imager.htm . И программа DjVu Imager - не навсегда, в дальнейшем она может смениться на некую ещё более удобную в работе.
Избежать разбиения на субсканы, увы, нельзя, так как субсканы после разделения приходится обрабатывать в РАЗНЫХ программах. И необходимость их обработки в разных программах пока непреодолима. Возможно, в будущем, всё же удастся делать всю сканобработку в единой программе (хотя я сомневаюсь - мир слишком разнообразен, чтобы его утиснуть в одну-единственную программу).
Цитата:
где говорится о создании вручную оглавления в Djvu, о какой программе идет речь?
Таких программ уже около десятка - я уже сам теряюсь в их многообразии. Там идёт речь о Djvu Bookmarker https://sourceforge.net/projects/djvubookmarker/ .
Цитата:
Я попробовал Djvu Hiperlinks, что-то он вообще ничего не создает, хотя и страница содержания указана, и OCR есть.
Да, иногда с ней такое бывает - когда вид оглавления чем-то не подходит под ожидания программы. Давайте DjVu-книгу (через файлообменник) - посмотрю, в чём там дело. У меня есть мною сделанное консольное приложение с таким же функционалом, что и у DjVu Hyperlinks Editor - попробуйте его: http://www.djvu-scan.ru/forum/index.php?topic=327.0 .
[Профиль]  [ЛС] 

Антонъ

Стаж: 18 лет 6 месяцев

Сообщений: 1281


Антонъ · 30-Сен-11 11:44 (спустя 1 час 50 мин.)

monday2000
Спасибо Вам за подробнейший ответ!
Я уже сделал оглавление вручную, в Document Express - в руководстве автор делает, оказывается, в нем.
Спасибо за ссылки на описание обработки сканов, поизучаю
Просто я тут одну книгу сохранил сразу после Кромсатора с цветными картинками и обложкой в Djvu Small, включив цветной режим (Color 23 bit), хорошо получилось. Но попробую по-вашему, с субсканами и дальнейшем добавлением.
И Scan Tailor попробую, раз так советуете.
Кстати, параллельно я сохранял сканы в Pdf, в Finereader'е, намного хуже выходит - огромный размер, ужасное качество картинки, и это при том, что пишут, что в случае цветной книги Pdf лучше.
[Профиль]  [ЛС] 

monday2000

Стаж: 15 лет 9 месяцев

Сообщений: 93


monday2000 · 30-Сен-11 13:21 (спустя 1 час 36 мин., ред. 30-Сен-11 13:21)

Антонъ
Цитата:
Спасибо Вам за подробнейший ответ!
Пожалуйста, рад был помочь.
Цитата:
Я уже сделал оглавление вручную, в Document Express - в руководстве автор делает, оказывается, в нем.
Это, конечно, ЧРЕЗВЫЧАЙНО трудоёмко. Всё же легче воспользоваться моей утилитой http://www.djvu-scan.ru/forum/index.php?topic=327.0 (при том, что и она не слишком удобна - т.к. прототип возможной удобной программы).
Цитата:
Просто я тут одну книгу сохранил сразу после Кромсатора с цветными картинками и обложкой в Djvu Small, включив цветной режим (Color 23 bit), хорошо получилось.
Вообще "метод разделённых сканов" (с разбиением скана на субсканы) хорош тем, что он ВСЕГДА гарантирует хорошее качество. При использовании других методов (обычных) - может получиться хорошо, а может и нет. Как повезёт. Именно этим "метод разделённых сканов" и хорош - своей высокой НАДЁЖНОСТЬЮ (и, вообще-то, относительной простотой).
Цитата:
что пишут, что в случае цветной книги Pdf лучше.
Это, как правило, заблуждение, порождённое незнанием о существовании метода разделённых сканов. Если при использовании обычных методов кодирования вместо метода разделённых сканов "не везёт" и получается брак - тогда, конечно, и PDF покажется "лучше".
Люди, которые проклинают DjVu и хвалят PDF, просто не подозревают о высоких возможностях DjVu (и о скрытых пороках PDF).
[Профиль]  [ЛС] 

Антонъ

Стаж: 18 лет 6 месяцев

Сообщений: 1281


Антонъ · 30-Сен-11 14:12 (спустя 51 мин.)

Хорошо, скачаю Вашу программу и попробую с нею, и буду осваивать "метод разделенных сканов"
Кстати, Вы написали, что в Кромсаторе можно вручную удалять грязь, а какой командой? В здешнем руководстве про это тоже ничего не написано.
[Профиль]  [ЛС] 

monday2000

Стаж: 15 лет 9 месяцев

Сообщений: 93


monday2000 · 30-Сен-11 14:34 (спустя 22 мин., ред. 30-Сен-11 14:34)

Антонъ
Цитата:
Кстати, Вы написали, что в Кромсаторе можно вручную удалять грязь, а какой командой?
В меню:
Result - Show source files. Правой кнопкой щёлкаем по скану. В появившемся контекстном меню ставим флажки на пунктах AutoSave и AutoClear. Теперь можно чистить - нажимаем левую кнопку мыши, обводим прямоугольником грязь (красный пунктир - режим Clear), отпускаем левую кнопку - в этот момент грязь исчезает. Если сделать двойной щелчок левой кнопкой мыши - режим мышиной очистки переключится на режим Despeckle (чёрный пунктир). Если ещё раз сделать двойной щелчок левой кнопкой мыши - режим мышиной очистки снова переключится на Clear.
Мышиный режим Despeckle - это когда при отпускании левой кнопки содержимое выделенного не стирается, а оттуда лишь удаляются соринки по алгоритму Despeckle.
Переход между сканами - удобно по клавишам "Q" и "W" или "[" и "]". В момент перехода на другой скан изменения скана автозапоминаются.
[Профиль]  [ЛС] 

Антонъ

Стаж: 18 лет 6 месяцев

Сообщений: 1281


Антонъ · 30-Сен-11 17:48 (спустя 3 часа, ред. 02-Окт-11 14:28)

Спасибо за науку! Здравия Вам и всех благ!
Новый пост:

Попробовал я на небольшой 50-страничной книжке с цветной обложкой и черно-белыми картинками все программы (просидел целый день, уфф!) - Scan Kromsator (SK), Scan Tailor (ST), St Split (SS), Djvu Imager (DI), FineReader 11 (FR), Djvu Small (DS).
Вот такие выводы получились:
чистая книга после SK+DS - 1,27 Мб
книга с OCR после SK+FR - 2,29 Мб (качество так себе)
чистая книга после SK+DS (1,27 Мб) с внедренным OCR от второго варианта (я так и не понял, как отдельно сохранять OCR в FR - извлекаю из готовой книги с помощью Djvu OCR) - 1,30 Мб (есть дефект - на паре страниц OCR отсутствует).
Вариант книги от FR похуже по качеству (меньше оригинальный размер) от чистой книги.
Это Кромсатор. Теперь Tailor плюс метод разделенных сканов.
чистая книга после ST+SS+DS - 1,43 Мб (однако, больше по размеру, в сравнении с SK. Но при этом качество скана лучше - чище текст и картинки).
книга с OCR после ST+FR - 1,31 Мб (намного меньше, чем после SK! при этом качество скана хорошее, поменьше, чем в чистой книге, но для чтения и печати - вполне).
чистая книга после ST+SS+DS (1,43 Мб) с внедренным OCR от второго варианта - 1,46 Мб. Опять больше, чем после SK, при этом OCR не совпадает с изображенным текстом.

Резюмирую (возможно, я где-то что-то сделал неправильно, так что это первичные выводы):
для наложения OCR и при этом сохранения высшего качества править сканы нужно в Кромсаторе - после Тэйлора OCR и текст не сочетаются;
для создания книги в FR править сканы однозначно в Тэйлоре - лучше качество, меньше размер;
а вот для создания чистой книги без OCR я пока не понял, что лучше: с одной стороны, с Тэйлором приятнее работать (очень понравилась обработка наклона страниц и автоопределение картинок!), но очень медленно всё делается, плюс дополнительные хлопоты с "методом разделенных сканов" (всё-таки он отнимает время); с другой стороны, Кромсатор быстрее работает и быстрее склеивает картинки (встроенная функция Зон Картинок), но качество сканов чуть похуже.
P.S. Блин, ну что за форум, почему не отделяет сообщения, а склеивает в одно??? Так ведь и не увидят, что я написал новый пост
Новый пост.
Я попробовал обработать небольшой цветной каталог, с цветными текстом, линиями и фотками.
Тэйлор я выключил сразу же - очень геморройный вывод, надо кликать на каждую страницу, каждый раз определять цветность страницы, выделять в зону картинок каждый цветной текст, линию, картинку.
В Кромсаторе нужно лишь выделить картинки, цветность задается сразу один раз, текст и линии остаются цветными без выделения. И, в отличие от Тэйлора, не надо выводить каждую страницу вручную - быстро обработал все страницы, и включил процесс вывода.
Так что Кромсатор все-таки лучше
[Профиль]  [ЛС] 

monday2000

Стаж: 15 лет 9 месяцев

Сообщений: 93


monday2000 · 03-Окт-11 08:46 (спустя 2 дня 14 часов, ред. 03-Окт-11 08:46)

Антонъ
Цитата:
я так и не понял, как отдельно сохранять OCR в FR - извлекаю из готовой книги с помощью Djvu OCR
Вот статья: http://www.infanata.org/news/questions/1146098494-sozdanie-v-djvu-fajjle-tekstovogo-sloja-i.html . Я не совсем понял, что именно Вы делали. Вообще переносить OCR-слой из одной DjVu-книги в некую другую (скажем, переделанную из первой) бесмыссленно - естестенно, что после переноса вставленный OCR-слой не совпадёт с текстом (визуально). После переделки DjVu-книги OCR-слой нужно создавать заново - иначе будут косяки вроде изображённого на рисунке (кстати, на рисунке проблема из-за разницы в DPI - СК по умолчанию выдаёт 300 dpi, СТ - 600 dpi).
Цитата:
плюс дополнительные хлопоты с "методом разделенных сканов" (всё-таки он отнимает время);
А "метод разделённых сканов" не зависит от выбранной программы. Он есть и в СК. Метод разделённых сканов следует применять всегда, когда в бумажной книге попадаются серые/цветные иллюстрации. И как раз благодаря СТ метод разделённых сканов применить гораздо легче - т.к. в СТ есть автоопределение картинок, а в СК картинки приходится выделять вручную (это просто каторга).
Цитата:
каждый раз определять цветность страницы
Нет, не надо. Там можно задать цветность сразу ко всем страницам.
Цитата:
выделять в зону картинок каждый цветной текст, линию, картинку.
Да и в СК нужно делать всё то же самое - только вручную, без авто-определения. Разве что цветной текст можно потом уже в готовом DjVu раскрасить.
Цитата:
Так что Кромсатор все-таки лучше
Автор программы, bolega, будет рад это прочитать.
Цитата:
В Кромсаторе нужно лишь выделить картинки, цветность задается сразу один раз, текст и линии остаются цветными без выделения.
Наверное, Вы что-то не так поняли. Какой смысл "лишь выделить картинки", если одновременно при этом "текст и линии остаются цветными без выделения"? Тогда это будет уже не метод разделённых сканов - а просто обычная сканобработка. Если у Вас "текст и линии остаются цветными без выделения" - тогда и "картинки выделять" теряет смысл, и наоборот.
[Профиль]  [ЛС] 

Антонъ

Стаж: 18 лет 6 месяцев

Сообщений: 1281


Антонъ · 03-Окт-11 13:15 (спустя 4 часа)

Спасибо за статью, понятно, в FR 11 уже нет сохранения в пакет, только в готовые форматы. Поэтому и приходится передирать OCR из книги в книгу.
Точно, я забыл выставить DPI, и получилось несовпадение! Попробую тогда еще раз
А как в ST сразу задать цветность всем страницам? Там при открытии страниц каждый раз "черно-белый".
И что меня убивает в ST, так это Вывод. Можно ли там вывести сразу все страницы, нажав один раз кнопку, как в SK (Prosecc!), или так и остается выводить каждую страницу (при книге в 400-500 страниц это вообще не вариант)?
В ST, даже при задании "цветного" режима, цветные линии и текст обесцвечиваются. Их выделения как раз бОльшая каторга, а в SK я картинки выделяю, чтобы они не теряли в качестве, а линии и текст и так отлично выглядят
[Профиль]  [ЛС] 

Shassukkum

Стаж: 16 лет 6 месяцев

Сообщений: 1178


Shassukkum · 03-Окт-11 18:30 (спустя 5 часов)

Антонъ писал(а):
А как в ST сразу задать цветность всем страницам? Там при открытии страниц каждый раз "черно-белый".
Цветной/Серый —> Применить к ...
Цитата:
В ST, даже при задании "цветного" режима, цветные линии и текст обесцвечиваются.
А пример можно?
Цитата:
<...> в SK я картинки выделяю, чтобы они не теряли в качестве, а линии и текст и так отлично выглядят
В ST качество картинки тоже не теряется. И, повторюсь, делается это всё в автоматическом режиме.
[Профиль]  [ЛС] 

Антонъ

Стаж: 18 лет 6 месяцев

Сообщений: 1281


Антонъ · 03-Окт-11 20:33 (спустя 2 часа 2 мин.)

Спасибо за ответ!
Но все-таки, самое главное, с Выводом в ST, может, я неправильно делаю. Пока так - на стадии Вывод на всех страницах стоит вопросительный знак. Чтобы сохранить обработанные страницы, нужно каждую открыть, тогда вопросительный знак пропадает и страница сохраняется. Но это ооочень долго и муторно. Можно ли в ST одним нажатием сохранить все страницы, без просмотра каждой?
[Профиль]  [ЛС] 

Stravada

Стаж: 17 лет

Сообщений: 573

Stravada · 03-Окт-11 20:58 (спустя 25 мин., ред. 03-Окт-11 20:58)

Антонъ!
В меню действий ST, в левом верхнем углу, в конце описания каждого действия стоит кнопка "play". На неё нажимаете мышкой, и программа уже сама проделывает со всеми страницами обработку.
[Профиль]  [ЛС] 

Loexa

Стаж: 15 лет 10 месяцев

Сообщений: 561

Loexa · 03-Окт-11 21:46 (спустя 47 мин.)

Дополню. В сырых сканах картинки могут определяться очень некорректно. Поэтому желательно предварительно обработать сканы в пакетном режиме в каком-нибудь редакторе.
Примерно так:
[Профиль]  [ЛС] 

petoleg

Top Seed 02* 80r

Стаж: 18 лет 5 месяцев

Сообщений: 725

petoleg · 03-Окт-11 23:22 (спустя 1 час 36 мин., ред. 03-Окт-11 23:22)

Когда-то давно обрабатывал сканы в SK, сейчас в ST. В нем настроек меньше и он удобнее.
Обрабатываю сразу полностью книгу: обложка в цвете, страницы в сером или цветном. Сканирую в 300dpi. Если обрабатывать в SK, то можно резать и "экранки" 96 dpi (раньше выпускались на дисках типа "Справочник студента по физике").
0. Открываем страницы. При этом можно указывать dpi принудительно для разных разрешений. При сканированном 150 можно указать 300 для обработки.
- проверил 9.9.2 - взял и 96 dpi. Раньше проверял, вроде матерился на малое разрешение.
Перед обработкой ко всем страницам полезно применить "Автоуровень" хоть в том-же менеджере рисунков MS Of.
1. Проверяем ориентацию страниц. Если сканировались разворотом, то проверяем на соответствие и обложки. Если сканировались "на автомате" FR с отключенным поворотом (что удобно - смотришь фильм и перелистываешь страницы), то удаляем лишние. Для сканирования постранично - переворачиваем с указанием "для этой и каждой второй". Проверяем, переходя QW.
2. Разрезка страниц - глючит если попадаются страницы с различной ориентацией. Если страницы в книжной ориентацией, а обложка в альбомной, то скорее всего обложку разрежет на две части.
Или если на одной из страниц находится таблица, диаграмма, рисунок с рамкой, то за линию разреза примет вертикальную линию.
3. Выравниванивание страницы - тоже нужная вещь. Бывает глючит на рисунках или текстах, если они идут не параллельно строчкам текста в книге. Вроде как выравнивается по первой строке. Бывает надо выравнивать по боковым сторонам вручную, если при сканировании текст искажается в трапецию или параллелограмм.
4. Область полезная. Запускаем на выполнение и занимаемся своими делами. Как закончит - проверяем, при необходимости передвигаем мышкой границы области на изображении страницы (в SK надо было двигать резаки за границами изображения страницы). Бывает не захватывает номера страниц или колонтитулы.
Можно сразу перейти от п.0 к п.4.
5. Устанавливаем поля, которые приплюсуются к полезной области. Можно применить как к отдельной странице (обложки, нестандартные вклейки) так и ко всем страницам. Могут меняться как парами верх-низ и право-лево, так и поотдельности, если, например, рисунок вылезает за границы текста или изображения переходящие с одной страницы на другую.
Показываются полезная область, поля на этой странице добавленные к полезной области и граница всей книги. Если посмотреть на границу всей книги, то можно увидеть, ошибки сделанные в п.1-5.
Полезная область бывает захватывает среднюю полосу, крупные пятна мусора, пометки на полях, кусок соседней страницы с рисунком или таблицей. Как проверить? Справа внизу укажите "Сортировка по возрастающей ширине" или "Сортировка по возрастающей высоте" и прокрутите движок вниз. На самых последних самых больших страницах посмотрите, возможно что-то надо исправлять.
Выравнивание страниц. Я обычно ставлю "по центру" и "применить ко всем". Дальше прохожу по всем страницам QW и где необходимо, меняю выравнивание. Можно мышку держать в области выравнивания, что бы далеко не вести или клавишей ТAB допрыгать до области выравнивания, стрелками выбрать требуемое, пробелом подтвердить.
6. Вывод результатов. Обложку - указываем, как правило, цветная-серая, страницы - выбираем в зависимости от того что изображено. Проходим по всем страницам QW, подсвечен выбор режима вывода, стрелками верх-низ меняем режим для данной страницы. По умолчанию стоит "черно-белый".
Особенность ST - при выборе страницы для вывода все п.1-6. проходят заново.
Для "Смешанных" страниц имеет смысл сразу при выборе страниц переключится на вкладку основного окна "Зона картинок". Тогда будет видно нужна ли какая-то коррекция для них. Как правило, если цвет который есть в картинке близок к цвету фона, он приравнивается к фону и вырезается из картинки. Бывает и наоборот. Фон темный и он добавляется к картинке. Мышкой выделяем контур области любой формы! Не только прямоугольной. Причем мы можем добавить или отнять область указанную вручную к определенной автоматически, что выбирается в контекстном меню.
"Зона заливки" - область которая заливается одним цветом. По умолчанию - белый, но по контексту можно выбрать другой. Удобна для уборки больших пятен, не находящихся в тексте или картинках.
Например, библиотечных штампов.
"удаление пятен" - удаляет мелкий мусор. Размер настраивается на левой панели. Имеет смысл на нескольких ч-б страницах проверить требуемый уровень уборки. В центральном окне просмотр вкладки "удаление пятен" можно посмотреть сколько пятен будет удалено. Но проверяйте обязательно оглавления\содержания, удаление пятен очень любит там резвиться, поедая нужные точк. Осторожно и с украинским языком!
Вывод результатов делаю в такой последовательности: обложка (сразу проверяю), смешанные страницы (Как правило, их немного. Проще сразу сделать с проверкой.), черно-белые в автомате.
Размеры страниц в режимах "цветной" и "смешанный" очень большие. Особенно если вывод на 600 Dpi. Держите запас пустого места.
Проверять результат, проще любым графическим просмотрщиком, зайдя в папку с результатами работы, и, если необходимо, переделывать страницы.
[Профиль]  [ЛС] 

Антонъ

Стаж: 18 лет 6 месяцев

Сообщений: 1281


Антонъ · 03-Окт-11 23:38 (спустя 16 мин.)

Спасибо большое за подробные ответы! Сохраню себе на память
Теперь я почти всё понял, а вот примеры, как ST у меня обесцвечивает текст и линии.
Дано: каталог с цветными фотками, линиями и текстом на каждой странице.

В ST выводит вот такой скан (включен "Смешанный режим"). Как видно, текст обесцвечен, цветные линии вовсе отсутствуют.

Чтобы вывести нормально эти линии и текст, нужно выделить каждую (!) в Зоне картинок.

В SK достаточно задать режим "Color 24 bit", и линии, и текст остаются при своем цвете.
А так, при обработке более простых по оформлению книг, возможно, ST лучше. Я помучаюсь еще с ним, спасибо вам за подсказки
Может, и на приведенную проблему есть решение?
[Профиль]  [ЛС] 

Wizardzim

Стаж: 18 лет 3 месяца

Сообщений: 951

Wizardzim · 03-Окт-11 23:49 (спустя 11 мин.)

Антонъ
зато в цветном режиме все нормально, не так ли?
[Профиль]  [ЛС] 

Антонъ

Стаж: 18 лет 6 месяцев

Сообщений: 1281


Антонъ · 03-Окт-11 23:57 (спустя 7 мин.)

Wizardzim
Спасибо, в цветном режиме всё отлично!
Просто меня смутило то, что Зоны картинок доступны только в смешанном режиме, вот я и включал его.
[Профиль]  [ЛС] 

Shassukkum

Стаж: 16 лет 6 месяцев

Сообщений: 1178


Shassukkum · 04-Окт-11 00:30 (спустя 33 мин.)

petoleg писал(а):
Когда-то давно обрабатывал сканы в SK, сейчас в ST. В нем настроек меньше и он удобнее.
<...>
Спасибо, толково написано
Прочёл Ваш пост ("да и свои заодно ") — видимо разжёвывания материала всё больше входят в моду на данной ветке.
Это я к чему. Может автору данной темы надо ... уточнить, а то и переписать представленный в начале темы материал? А-то, мало кому интересно шариться по всем 15-ти страницам, перечитывая их все от корки до корки.
[Профиль]  [ЛС] 

57an

Стаж: 16 лет 10 месяцев

Сообщений: 191


57an · 04-Окт-11 19:44 (спустя 19 часов)

Цитата:
Может, и на приведенную проблему есть решение?
Скан не рассмотреть, залейте куда-нибудь в оригинальном размере. Сканы все однотипные?
[Профиль]  [ЛС] 

Антонъ

Стаж: 18 лет 6 месяцев

Сообщений: 1281


Антонъ · 04-Окт-11 20:39 (спустя 54 мин.)

Да, однотипные. В оригинальном не имею возможности, пишу с мобильного. Да и решение уже нашлось - нужно включать режим "Цветной".
[Профиль]  [ЛС] 

Shassukkum

Стаж: 16 лет 6 месяцев

Сообщений: 1178


Shassukkum · 04-Окт-11 22:57 (спустя 2 часа 17 мин.)

Антонъ писал(а):
Да, однотипные. В оригинальном не имею возможности, пишу с мобильного. Да и решение уже нашлось - нужно включать режим "Цветной".
В принципе можно не кодировать всё в цветном режиме.
Можете поудолять в автоматическом режиме белый фон (в Вашем случае) со сканов (с помощью необходимого графического редактора), и потом, методом разделения сканов, закодировать сначала один субскан (с помощью DjVu Small), потом — другой, цветной, с помощью DjVu Imager.
Эти танцы с бубном для того, что-бы удалить "паразитный" белый фон. Т.е. белый фон не кодируется как часть цветного изображения. А значит размер исходного файла становиться меньше
Я-вот сделал на примере Вашего файла. Один, без заморочек, получился в 34,732 а другой — в 32,575. Разница в 2,157 на одной картинке.
[Профиль]  [ЛС] 

Антонъ

Стаж: 18 лет 6 месяцев

Сообщений: 1281


Антонъ · 05-Окт-11 00:11 (спустя 1 час 14 мин.)

Спасибо за подсказку!
Буду знать, хотя, я думаю, лишние 20-40 Мб не станут помехой при хорошем качестве книги, - куда уж дальше осложнять процесс, и так, получается, после сканирования - ST, потом FReader, SSplit, DSmall, DImage.
[Профиль]  [ЛС] 

monday2000

Стаж: 15 лет 9 месяцев

Сообщений: 93


monday2000 · 05-Окт-11 08:37 (спустя 8 часов, ред. 05-Окт-11 08:37)

Антонъ
Вообще, для лучшего понимания процесса создания DjVu-книги, наверное, полезно знать ещё и теорию. Когда понимаешь весь процесс на теоретическом уровне - тогда не важно, какой конкретной программой делаешь тот или иной этап в цепочке действий по превращении бумажной книги в электронную.
Нужно знать и понимать вообще саму суть формата DjVu - тогда станет гораздо легче. Вот, почитайте:
Что такое DjVu и откуда у него такие возможности?
http://www.djvu-soft.narod.ru/about_djvu.htm
Но это всё же переводная статья (с английского на русский), и поэтому как-то не очень ясная. А вот статья изначально русскоязычная:
DjVu: Краткое техническое введение
http://www.djvu-soft.narod.ru/djvu_abstract.htm
Там есть блестящий наглядный пример - карта Ирака. Стоит на неё только взглянуть - как сразу становится ясной главная суть формата DjVu (разделение слоёв, именуемое "сегментация"). После этого также становится ясной теоретическая суть метода разделённых сканов - что это просто "заведомая сегментация" для будущего DjVu - такая же по сути, как и в примере с картой Ирака. Просто конкретный случай "с картой Ирака" более сложен, чем метод разделённых сканов - с картой Ирака была проделана автоматическая сегментация (во время DjVu-кодирования), а в методе разделённых сканов применяется ручная сегментация (до DjVu-кодирования). Автоматическая сегментация (DjVu Small) применяется тогда, когда ручной нельзя воспользоваться - когда слишком уж тяжело вручную просегментировать (карту Ирака вручную чёрта с два рассегментируешь так же, как это было проделано там автоматом).
[Профиль]  [ЛС] 

Cucumis

VIP (Заслуженный)

Стаж: 18 лет 2 месяца

Сообщений: 11948

Cucumis · 05-Окт-11 08:57 (спустя 20 мин.)

petoleg
Респект за руководство - для начинающих как раз то, что нужно. Еще бы ссыль на сам Scan Tailor добавить, и можно рекомендовать всем, кто сырые сканы релизит
petoleg писал(а):
6. Вывод результатов. Обложку - указываем, как правило, цветная-серая, страницы - выбираем в зависимости от того что изображено. Проходим по всем страницам QW, подсвечен выбор режима вывода, стрелками верх-низ меняем режим для данной страницы. По умолчанию стоит "черно-белый".
Я со временем пришел к тому, что лучше выводить в цвете (даже ч/б книги), а уже djvu собирать в режиме bitonal. Размер итогового файла будет одинаково маленьким, а качество - лучше (насколько я понимаю, Document Express бинаризацию наиболее правильно делает).
[Профиль]  [ЛС] 

Антонъ

Стаж: 18 лет 6 месяцев

Сообщений: 1281


Антонъ · 06-Окт-11 12:48 (спустя 1 день 3 часа)

Cucumis
То есть, вы делаете книгу не в Djvu Small, а в Document Express?
Скажите, пожалуйста, когда лучше распознавать сканы в FReadere - до разделения сканов в DImage, или после? А то я опасаюсь, что структура книги как-то меняется, и OCR не совпадет с изображением.
[Профиль]  [ЛС] 

Cucumis

VIP (Заслуженный)

Стаж: 18 лет 2 месяца

Сообщений: 11948

Cucumis · 06-Окт-11 21:20 (спустя 8 часов)

Антонъ писал(а):
То есть, вы делаете книгу не в Djvu Small, а в Document Express?

Document Express Enterprise.
Антонъ писал(а):
до разделения сканов в DImage, или после?
Что есть DImage?
Вообще распознавание - последний этап, я после Скан Тэйлора делаю.
[Профиль]  [ЛС] 

Shassukkum

Стаж: 16 лет 6 месяцев

Сообщений: 1178


Shassukkum · 06-Окт-11 23:25 (спустя 2 часа 4 мин.)

Cucumis писал(а):
Что есть DImage?
DjVu Imager, видимо.
[Профиль]  [ЛС] 

monday2000

Стаж: 15 лет 9 месяцев

Сообщений: 93


monday2000 · 07-Окт-11 10:12 (спустя 10 часов, ред. 07-Окт-11 10:12)

Cucumis
Цитата:
насколько я понимаю, Document Express бинаризацию наиболее правильно делает
Да кто его знает, как именно он её делает. А если вдруг сделает неправильно? Потому и делают бинаризацию в Scan Tailor или в другой программе. Бывают сканы, где весьма затруднительно сделать бинаризацию - пересвеченые, бледные, малоконтрастные, зашумленные. Некоторые даже применяют подавление шумов перед бинаризацией (прогами типа Noise Ninja и т.п. - см. http://www.djvu-soft.narod.ru/scan/clear_scan_trilogy.rar )
Цитата:
Я со временем пришел к тому, что лучше выводить в цвете (даже ч/б книги), а уже djvu собирать в режиме bitonal.
Такой подход не универсален - он сгодится только для чисто чёрно-белых книг. И то, только в надежде, что Document Express хорошо сделает бинаризацию. А ведь бывают ещё и книги с серыми/цветными иллюстрациями.
Антонъ
Цитата:
Скажите, пожалуйста, когда лучше распознавать сканы в FReadere - до разделения сканов в DImage, или после? А то я опасаюсь, что структура книги как-то меняется, и OCR не совпадет с изображением.
Сканы разделяются не в DjVu Imager, а в ST Split (или в Сепараторе). В файнридере можно распознавать те сканы, которые непосредственно подаются на вход DjVu Small (во всех случаях жизни). Совпадение OCR с изображением зависит только от 2 параметров: геометрические размеры скана (длина и ширина в пикселях) и DPI. Эти параметры "переносятся" и в DjVu (при кодировании). Так что, если они одинаковы как в сканах, так и в DjVu - всё нормально, смещения OCR не будет.
[Профиль]  [ЛС] 

Cucumis

VIP (Заслуженный)

Стаж: 18 лет 2 месяца

Сообщений: 11948

Cucumis · 07-Окт-11 13:26 (спустя 3 часа)

monday2000 писал(а):
А ведь бывают ещё и книги с серыми/цветными иллюстрациями.
Так их и в джвю паковать в цвете
[Профиль]  [ЛС] 
 
Тема закрыта
Loading...
Error