|
kalyambus
 Стаж: 15 лет 9 месяцев Сообщений: 23
|
kalyambus ·
26-Фев-10 11:28
(15 лет 7 месяцев назад)
57an писал(а):
kalyambus
По-моему вариант через экспорт страниц и последующей разбивки самый рабочий...
Спасибо большое!!!
|
|
twdragon
  Стаж: 17 лет 6 месяцев Сообщений: 920
|
twdragon ·
01-Мар-10 21:12
(спустя 3 дня)
ku-1904
Вы можете создать профиль кодировщика DjVu и спокойно попытаться закодировать B/W сканы сразу в формат, с последующей обработкой обложек и оглавления, без OCR, если это вам не слишком надо. Покромсать можно, если буквы при увеличении выглядят сильно "рваными" - тогда слегка размыть их в Кромсаторе.
|
|
kintairos
  Стаж: 15 лет 9 месяцев Сообщений: 501
|
kintairos ·
01-Мар-10 22:49
(спустя 1 час 36 мин.)
twdragon
Посоветуйте, пожалуйста, оптимальный на Ваш взгляд алгоритм создания обложек для djvu (формат, разрешение, что потом с этим делать). Кстати, а чем хуже editora djvu solo - на первый взгляд работает быстрее, сжимает не хуже?
|
|
57an
Стаж: 16 лет 10 месяцев Сообщений: 191
|
57an ·
02-Мар-10 04:14
(спустя 5 часов, ред. 02-Мар-10 04:14)
kintairos
Я, в зависимости от степени детальности обложки конвертирую ее в формат 150, 200 (или оставляю в 300) dpi, удаляю растр фильтром Гаусса, кодирую постранично в djvu в профиле photo, и затем постранично вставляю в требуемые позиции окончательно собранного файла с помощью Djvu Editor. То же касается и полностраничных иллюстраций (например, вклеек).
Djvu Solo не поддерживает книги, закодированные в новом формате. Не позволяет увеличивать размер словаря (он там по умолчанию один на 10 страниц). Зато бесплатен. Чуть подробнее - тут, пп 2.1.1 и 4.2.
|
|
kintairos
  Стаж: 15 лет 9 месяцев Сообщений: 501
|
kintairos ·
02-Мар-10 08:22
(спустя 4 часа)
А как сделать обложку книги одного размера с другими (текстовыми) страницами?
|
|
57an
Стаж: 16 лет 10 месяцев Сообщений: 191
|
57an ·
02-Мар-10 09:27
(спустя 1 час 4 мин., ред. 02-Мар-10 09:27)
kintairos Одного размера - понятие растяжимое. В общем случае делается через команду Изменить размер - Ctrl+R - FastStone Image Viewer или аналогичного просмотрщика. Подозреваю, что вам нужно просто перед кодированием задать страницам обложки корректное dpi (делается той же командой). Посмотрите в правом нижнем углу WinDjView физические размеры для текстовых страниц и страниц обложки, вычисленные исходя из пиксельных размеров и значения dpi. Для типичной книги должно быть порядка 16 на 22 см +- 10% (реальный физический размер страницы бумажной книги). Во сколько раз отличается от данного размера страница обложки или текста - во столько раз требуется коррекция dpi.
|
|
twdragon
  Стаж: 17 лет 6 месяцев Сообщений: 920
|
twdragon ·
02-Мар-10 12:35
(спустя 3 часа)
kintairos
DjVu Solo сложнее настраивать - там нужно лезть в Config, редактировать параметры вручную - то есть нет полного контроля над параметрами кодирования. Единственное достоинство Соло - интуитивный интерфейс. Более сложные кодеры в этом плане "наворочены", но если разобраться - дают полный контроль над получаемым файлом, и настройки всегда можно изменить, не закрывая редактора и не мучаясь с конфигурационными файлами. Обложки я делаю так: сканирую книгу со всех сторон по обложке (эта работа штучная, поэтому потом обложки почти не обрабатываю, а уже на сканере выставляю экспозицию, положение на стекле итп.). Сканирую в режиме TrueColor (даже черно-белые обложки) с разрешением 300dpi. Потом, используя профиль Photo (300dpi) кодирую их в DjVu отедльными файлами. Далее, открыв в Document Express Editor файл с уже собранной книгой (пока еще без обложек) - добавляю туда обложки уже в виде одиночных файлов DjVu (здесь важно не добавлять графические файлы, кодер Editor'a в этом плане никуда не годится). Потом просто сохраняю готовую книгу. Все заботы о формате редактор берет на себя (еще раз повторю, только не давайте ему самому кодировать несжатые изображения) Иногда еще приходится отсканировать корешок и сделать для раздачи красивую 3D-картинку с помощью Insofta Cover Commander.
|
|
57an
Стаж: 16 лет 10 месяцев Сообщений: 191
|
57an ·
07-Мар-10 07:28
(спустя 4 дня, ред. 07-Мар-10 07:28)
|
|
catman85
 Стаж: 17 лет 4 месяца Сообщений: 283
|
catman85 ·
07-Мар-10 10:02
(спустя 2 часа 34 мин.)
Отличное руководство. Сажусь оцифровывать свою первую книгу
|
|
twdragon
  Стаж: 17 лет 6 месяцев Сообщений: 920
|
twdragon ·
07-Мар-10 22:20
(спустя 12 часов)
57an
критика использования Dither'а для изображений весьма конструктивна, но только в части кодирования офсетных иллюстраций с низкой линиатурой и без дополнительной подготовки.
Сам я кодирую диффузно в первую очередь именно клишированные безрастровые изображения, а если есть сильный видимый растр - ввожу дополнительный препроцессинг в виде существенного (порядка 40% при радиусе выборки 2px) размытия, что уменьшает группировку точек на выходной канве. К тому же, встроенное сглаживание в моем ScanJet 6390c практически уничтожает линиатурный муар (сохраняя регулярный), так что эта проблема для меня лично в известной мере нивелирована.
Метод разделения/вклейки пока серьезно не изучал - времени нет. В принципе, если, как говорится, "припрет" - освою, тогда можно будет и написать что-то конкретное. P.S. Вижу, что серьезно назрела необходимость модернизации руководства (с учетом, что эта операция давно планируется, но чехарда с доменом Torrents помешала масштабной работе). В самое ближайшее время (ориентировочно в районе 17-19 числа марта) добавлю информацию по автоматизации создания оглавления и борьбе с растром.
|
|
57an
Стаж: 16 лет 10 месяцев Сообщений: 191
|
57an ·
08-Мар-10 10:35
(спустя 12 часов, ред. 08-Мар-10 10:35)
twdragon
Действительно, проблемы муара в ваших книгах практически нет. Однако, пожалуйста, постарайтесь потратить время на изучение метода вставки. Поверьте, этого времени нужно совсем немного. Ключевые моменты я уже описал в вике.
Алгоритм JB2 не предназначен для кодирования dither'а. Практически - он лишь zip'ует картинку (размер до процентов соответствует той же картинке, но закодированной в png)...
С другой стороны, вейвлет-алгоритм IW44 для кодирования чуть размытых против растра фотографий - самое оно.
Все необходимое в СК давно уже заложено, и много где описано, например, в п.4.2 руководства "Hi-Fi DjVu" от Melirius - но там оно идет после подробного описания тридцати кнопок и до него редко кто дочитывает...
Вы же можете действительно дать этой крайне полезной технологии дорогу в массы, ведь ваше руководство распространилось далеко за пределы рутрекера. И очень хотелось бы, чтобы оно было предельно корректным, не предлагая людям делать книги худшего качества и значительно большего (часто - на порядок большего) размера, чем нужно.
Характерный пример применения технологии - трехтомник Броделя. Представьте, что бы произошло с иллюстрациями, обработай я их dither'ом...
|
|
twdragon
  Стаж: 17 лет 6 месяцев Сообщений: 920
|
twdragon ·
12-Мар-10 17:14
(спустя 4 дня)
57an
Я прочитал по этой технологии то, что вы мне порекомендовали. Начну вплотную изучать, как только смогу. Однако, merg'ить закодированные иллюстрации с переименованием показалось не сильно удобным. Подумаю дополнительно над тем, как облегчить этот процесс. С изображениями - сперва еще потренируюсь на трудносканируемых книгах, вроде сборников трудов научных конференций. Надеюсь, мы дадим дорогу в массы не только этой технологии.
|
|
karl_karlsson
 Стаж: 19 лет 2 месяца Сообщений: 378
|
karl_karlsson ·
13-Мар-10 17:48
(спустя 1 день, ред. 13-Мар-10 17:48)
twdragon
twdragon писал(а):
Сканирование всех своих книг я проводил и провожу на достаточно старом (2003 года выпуска) полупрофессиональном планшетном сканере для документ-систем Hewlett-Packard ScanJet 6390c. Эта машина отличается высоким быстродействием (15-25 сек на страницу формата А4 в режиме градаций серого).
"300 dpi".
twdragon писал(а):
Отдельно коснемся использования сжатого (Compressed или LZW) TIFF: при сохранении сжатого изображения в TIFF можно использовать алгоритмы сжатия: ZIP, LZW (без потерь), JPEG (с потерями). Без хлопот программы распознавания вроде FineReader понимают только JPEG. Со всеми остальными форматами проблемы могут возникать непредсказуемо (например, у меня FineReader 7.0 испытывает устойчивую "идиосинкразию" конкретно к формату сжатия LZW). Поэтому если нет особых проблем с наличием места на диске, лучше всегда использовать несжатый файл.
У FineReader 7 просто нет поддержки LZW. Зато у FineReader 8 и 9 она без проблем. Всегда пользуюсь Compressed TIFF, а он у моего сканера (тоже HP) точно LZW. Если есть проблемы сделать Compressed TIFF -> UnCompressed TIFF не сложно:
tiffcp
twdragon писал(а):
Зачем нужен оверсемплинг?
При распознавании текста программа "оконтуривает" символы по их контрасту с окружающим полем страницы. Затем полученные контуры сравниваются с эталонными, содержащимися в языковой базе данных. Если процент сходства достаточно велик, контур признается распознанным как тот или иной символ шрифта. В общих чертах, именно так работают алгоритмы OCR. Успех их работы сильно зависит от того, насколько велик абсолютный (в пикселах) размер символа в графическом файле. А этот самый размер напрямую зависит от разрешения файла. При разрешении 600 dpi на реальную ширину и высоту "бумажного" символа придется ровно вдвое больше пикселов графического изображения, чем при разрешении 300 dpi. Соответственно, вероятность успешного распознавания тоже вырастет, причем весьма существенно. Задача оверсемплинга - поднять разрешение скана до выходного, пересчитав определенным образом точки графического изображения.
Не совсем так. Для FineReader 300 dpi вполне достаточно. Когда сканирую в 600 dpi он часто говорить что разрешение слишком высоко. Когда скан 300 dpi имеет нужное качество, то делая OCR в 600 dpi только занимается больше памяти и процессорного времени, но результат тот же.
Причина делать 300 dpi Gray Scale -> 600 dpi Bitonal только одна - в 300 dpi сканируется быстрее, в 600 dpi читается лучше.
twdragon писал(а):
Оверсемплинг позволяет впоследствии спасти изображение от дефектов сжатия (за счет большого числа точек они становятся незаметны), а также помогает вывести изображение на печать наилучшим образом. Например, при печати файла DjVu 300 dpi на полном формате (масштаб 100%) шрифт получается "рваным" из-за того, что преобразование серого скана в чисто черно-белое изображение дает много дефектов по краям букв, а принтер, имея собственное разрешение немногим больше 300 dpi, не в состоянии их исправить. Совсем иное дело - при печати документа с разрешением 600 dpi. В этом случае входное изображение принтера, имеющее огромное количество точек, "ужимается" в размер реальной бумажной страницы. Особенности алгоритмов изменения размера приводят к тому, что границы символов разглаживаются, а резкость увеличивается.
Разница между сжатыми страницами с разным разрешением заметна даже при просмотре на экране: на 300 dpi все дефекты, не устраненные обработкой, становятся заметны, а иногда изображения (например, полученные с бледного скана) вообще приходят в негодность.
Если печатать в 300 dpi и без сжатия (TIFF скана, или даже векторного PDF-а), оно не красиво.
twdragon писал(а):
PDF - изначально "компьютерный" издательский формат, рассчитанный на максимально точное отображение электронного документа на любых устройствах. Соответственно, он показывает наилучшие результаты именно при сохранении изначально электронных документов. PDF использует формат сжатия JPEG для графики и LZW для текста. Соответственно, лучше всего этому формату удается сохранение мультимедийных документов с полноцветным оформлением и обилием графики. Однако, при сохранении сканированных страниц получается своего рода "суррогат": текст, наложенный на сжатое JPEG изображение полного формата страницы. Такая методика дает большой проигрыш в размере (средняя книга из 300 страниц весит несколько сотен мегабайт), но приемлемое качество. PDF не переносит диффузных (Dithered) изображений, опять-таки из-за наличия в составе алгоритма JPEG. Сжатие превращает такие иллюстрации в подобие картин Казимира Малевича Может, кому-то это понравится, но ради спортивного интереса - посмотрите когда-нибудь на свой портрет, сжатый подобным образом...
Совсем не так. PDF давно поддерживает все алгоритмы компрессии, которые поддерживает и DjVu.
"PDF - изначально "компьютерный" издательский формат, рассчитанный на максимально точное отображение электронного документа на любых устройствах" - это относится к PostScript, а PDF его подмножество рассчитанное на портабельност.
|
|
twdragon
  Стаж: 17 лет 6 месяцев Сообщений: 920
|
twdragon ·
14-Мар-10 00:47
(спустя 6 часов)
karl_karlsson
пока не слышал, чтобы PDF поддерживал вейвлет-кодирование для изображений. IW44 в PDF точно есть? Разжимать TIF'ы можно и фотошопом - с помошью процессора или макроса.
|
|
karl_karlsson
 Стаж: 19 лет 2 месяца Сообщений: 378
|
karl_karlsson ·
14-Мар-10 15:11
(спустя 14 часов)
twdragon писал(а):
пока не слышал, чтобы PDF поддерживал вейвлет-кодирование для изображений. IW44 в PDF точно есть?
Разжимать TIF'ы можно и фотошопом - с помошью процессора или макроса.
DjVu -> JB2 & IW44
PDF -> JBIG2 & JPEG2000
JPEG2000 точно вейвлет. Luradocument Pdf Compressor (практически нет настроек, прелистание страниц PDF грузит процессор немало)
Cvision PdfCompressor (Cvista PdfCompressor) (настроек есть, нормального кряка кажется нет, не пробовал никогда)
Фотошоп может все конечно, но tiffcp является Free Open Source (libtiff), очень маленький, нет инсталляции и все в один клик делается при помощи BAT файла.
|
|
57an
Стаж: 16 лет 10 месяцев Сообщений: 191
|
57an ·
16-Мар-10 11:54
(спустя 1 день 20 часов)
Кстати, по поводу кодирования обложек. В принципе, вполне можно вообще исключить из процесса обработки Djvu Solo и ему подобные, т.е. отдельное кодирование в photo и последующую ручную вставку, делая все действия с расслоенными обработанными сканами через связку Djvu Small + Djvu Imager.
Это оказалось возможным, потому что Djvu Imager при вставке иллюстрации в background делает проверку на содержимое foreground, и если там нет информации, т.е. чистая белая страница (а при расслоении обложки сепаратором так и будет), то удаляет пустой foreground, оставляя только закодированный в photo слой background с обложкой.
Эта особенность оказалась очень полезной при кодировании книг по кулинарии, в которых на 600 страниц каждая вторая - с полностраничной иллюстрацией.. Кодировать каждую в photo и вставлять вручную было бы чрезвычайно трудоемко и чревато ошибками.
|
|
Inika88
 Стаж: 16 лет 4 месяца Сообщений: 92
|
Inika88 ·
20-Мар-10 07:35
(спустя 3 дня)
Подскажите, пожалуйста, как лучше быть?
Попробовала отсканировать сама впервые журнал по кулинарии. Сделала PDF. Получилось на 34 страницы - 14 Мб. Недавно следующий номер нашла в Рунете. У них вставлена какая-то левая реклама и весит их DjVu около 1 Мб. То есть там практически отсутствует качество.
Так что же лучше для кулинарного журнала?.. PDF или DjVu? Ведь картинки тоже важны в кулинарных журналах?..
|
|
Nick222
Стаж: 18 лет 3 месяца Сообщений: 3687
|
Nick222 ·
20-Мар-10 08:07
(спустя 32 мин., ред. 20-Мар-10 08:07)
Inika88
Сканировали сразу в PDF? Приведите, плз, примеры страницы Вашего скана и того DJVU.
|
|
Inika88
 Стаж: 16 лет 4 месяца Сообщений: 92
|
Inika88 ·
20-Мар-10 08:52
(спустя 45 мин.)
Nick222
Нет, сканировала в *.tif. Одна страничка получилась в среднем в 20-25 Мб. Ставила 300 dpi, кажется. Потом с помощью Acrobat'а перегоняла в PDF. Сначала один файл получался весом где-то в 60 Мб. Потом почитала здесь руководство, где-то что-то изменила, получился файл в 14 Мб.
Вот мой скриншот:
Вот скрин из DjVu из Рунета, появившегося на днях:
Текст здесь читаем. Но картинки совсем потеряны...
|
|
57an
Стаж: 16 лет 10 месяцев Сообщений: 191
|
57an ·
20-Мар-10 09:36
(спустя 43 мин., ред. 20-Мар-10 09:36)
Inika88
Лучше всего - качество. А pdf и djvu можно сделать любого размера. Как писалось выше, разница между ними довольно-таки условна.
Другой вопрос, что pdf в вашем случае использовался, как jpeg-контейнер для сканов. Практически аналогичный результат (и по качеству и по объему) даст djvu-кодирование с профилем photo. Для журналов с большим количеством иллюстраций, с разноцветным текстом и текстом на фоне иллюстраций в настоящее время это практически единственный доступный способ сохранить качество сканов.
Создание качественных djvu с уменьшенным размером файла в случае журналов - это высший пилотаж обработки. Для этого нужно хорошо подготавливать сканы и разбираться в тонкостях настройки профилей кодирования.
Чтобы сделать маленький djvu плохого качества разбираться не нужно ни в чем.
В вашем случае, кстати, не помешало бы попытаться немного изменить контраст и яркость, чтобы фон страниц стал белее.
Примерно так:
Если есть возможность, залейте на какой-нибудь файлообменник (типа onlinedisk) именно скан.
Поэтому, например, на инфанате уже давно сложилась практика выкладывать сразу два файла журнала - djvu среднего качества и pdf высокого.
|
|
Inika88
 Стаж: 16 лет 4 месяца Сообщений: 92
|
Inika88 ·
20-Мар-10 09:53
(спустя 16 мин.)
57an писал(а):
В вашем случае, кстати, не помешало бы попытаться немного изменить контраст и яркость, чтобы фон страниц стал белее.
Примерно так:
Думала об этом. Просто в самом журнале именно такое качество: страницы довольно тонкие, бумага не самая лучшая, и текст просвечивает.
И решила сохранить именно саму атмосферу журнала: эти просвеченные страницы.  Ведь в журнале всё далеко не белое, а именно серое с просвечивающим текстом.
57an писал(а):
Если есть возможность, залейте на какой-нибудь файлообменник (типа onlinedisk) именно скан.
Полностью отсканированные странички весят 752 Мб... Выложить всё у меня нет возможности - канал не позволяет.  Вот одна из страничек:
|
|
57an
Стаж: 16 лет 10 месяцев Сообщений: 191
|
57an ·
20-Мар-10 10:23
(спустя 29 мин.)
Цитата:
страницы довольно тонкие, бумага не самая лучшая, и текст просвечивает.
Да какая там атмосфера - лишняя нагрузка на кодер только.. А вообще, чтобы не просвечивало подкладывают черные листы плотной бумаги.
Немного обработал ваш скан в кореле - фильтр Гаусса по 2м пикселям, затем повышение резкости, затем увеличил контраст.
При кодировании в профиле photo получим максимально качественный результат и 400кб на страницу - т.е. тот же результат, что и в вашем pdf.
При кодировании в профиле scanned - 80кб на страницу (3Мб на журнал). И заметные при увеличении артефакты на блинах. Но в целом качество примерно выше среднего.
|
|
Skytower
  Стаж: 16 лет 9 месяцев Сообщений: 10321
|
Skytower ·
20-Мар-10 10:38
(спустя 15 мин.)
спасибо за прекрасную статью!
подскажите (ко-нибудь), чего не хватает в таком случае:
подчеркнутое - пусто, а в статье указано, что там должно быть Standart Book Render
Заранее спасибо за ответ.
|
|
Inika88
 Стаж: 16 лет 4 месяца Сообщений: 92
|
Inika88 ·
20-Мар-10 14:57
(спустя 4 часа, ред. 20-Мар-10 18:42)
57an писал(а):
А вообще, чтобы не просвечивало подкладывают черные листы плотной бумаги.
Спасибо за совет! Вроде был где-то черный картон - надо будет попробовать. 
А еще посмотрела ваши варианты. Да, возможно, отбеленный вариант лучше, но сам стиль теряется. Ведь журнал на самом деле не такой. Лучше в следующий раз попробую с черным картоном. А "scanned" вообще не понравился. Видимо, тот вариант в Рунете так и сделан.
Искренне спасибо за такую информацию и опыты со сканом. Любопытно.
|
|
ВикНик2
Стаж: 17 лет 2 месяца Сообщений: 64
|
ВикНик2 ·
21-Мар-10 09:45
(спустя 18 часов)
Блин, какой ужас! Автор говорит, что чем проще, тем лучше, но даже чтобы прочитать данное руководство нужно потратить уйму времени. И еще, не понимаю, обязательно ли распознавать текст отсканированных страниц? Почему нельзя просто оставить в его как отсканированные страницы в формате *djvu или *pdf. Многие проблемы можно решить программой VueScan Тем более что при распознавании файн ридер может выдавать уйму ошибок.
|
|
57an
Стаж: 16 лет 10 месяцев Сообщений: 191
|
57an ·
21-Мар-10 10:08
(спустя 23 мин., ред. 22-Мар-10 09:29)
ВикНик2
Распознавать или не распознавать - это ваше личное дело. Если хотите проще - изучайте Scan Tailor.
Если не распознаете, но сделаете отличный djvu, то вам все равно будут очень благодарны. А в случае острой необходимости желающий сам может распознать любую требуемую ему часть книги.
Главное - не делать OCR продуктами LizardTech - такое распознавание содержит крайне много ошибок.
|
|
twdragon
  Стаж: 17 лет 6 месяцев Сообщений: 920
|
twdragon ·
21-Мар-10 14:42
(спустя 4 часа, ред. 21-Мар-10 14:42)
Skytower
просто переключите верхний список на Default Profile, и спокойно вносите все необходимые настройки. Приступил к оформлению раздела по автоматизации создания оглавления. Точных сроков оговорить, к сожалению, пока невозможно, но буду стараться работать как можно быстрее.
|
|
demcy
 Стаж: 18 лет 2 месяца Сообщений: 16
|
demcy ·
21-Мар-10 23:14
(спустя 8 часов)
что делать, все изображения в jpeg и что дальше?
|
|
twdragon
  Стаж: 17 лет 6 месяцев Сообщений: 920
|
twdragon ·
22-Мар-10 02:04
(спустя 2 часа 49 мин.)
demcy
при разрешении более 180 и факторе сжатия 8 и выше - попытаться можно...
|
|
ZorKon71
 Стаж: 15 лет 10 месяцев Сообщений: 490
|
ZorKon71 ·
22-Мар-10 10:58
(спустя 8 часов)
twdragon писал(а):
twdragon
А можно поподробнее?
Я вот насканировал кучу книг, а теперь думаю, может в DjVu их перевсти!? А то хранить как-то накладно получается...
Где можно прочитать подробную инструкция о создании DjVu-книг? Со всеми хитростями и т.д.
|
|
|