FAQ по сборке (созданию) DjVu книги из сырых сканов

Страницы :   Пред.  1, 2, 3 ... 6, 7, 8 ... 40, 41, 42  След.
Ответить
 

Irbys27

Top Seed 05* 640r

Стаж: 15 лет 5 месяцев

Сообщений: 2445

Irbys27 · 08-Янв-14 10:03 (11 лет 6 месяцев назад)

$Shorox
Спасибо за помощь!
[Профиль]  [ЛС] 

Gashik-ru

Top Seed 04* 320r

Стаж: 17 лет 8 месяцев

Сообщений: 853

Gashik-ru · 09-Янв-14 23:09 (спустя 1 день 13 часов)

Есть книга, где на страницах с текстом большое количество чб изображений. При сканировании в чб они, понятно, превращаются в мутно-черное пятно, а при сканировании страницы в оттенках серого, избражения выглядят прилично, а сама страница и текст грязно. Можно ли как-то все это совместить? Я попробовал тупо в пейнте копировать изображение в чб страницу, но программа такие файлы отказалась кодировать в djvu.
[Профиль]  [ЛС] 

DjVu-Master

Стаж: 15 лет 6 месяцев

Сообщений: 6123

DjVu-Master · 09-Янв-14 23:11 (спустя 1 мин.)

Gashik-ru
Дайте мне страницу в оттенках серого. пару штук залейте на обменник.
[Профиль]  [ЛС] 

Gashik-ru

Top Seed 04* 320r

Стаж: 17 лет 8 месяцев

Сообщений: 853

Gashik-ru · 09-Янв-14 23:21 (спустя 9 мин.)

DjVu-Master
http://rghost.ru/51525199
[Профиль]  [ЛС] 

DjVu-Master

Стаж: 15 лет 6 месяцев

Сообщений: 6123

DjVu-Master · 10-Янв-14 00:40 (спустя 1 час 19 мин., ред. 10-Янв-14 00:40)

Gashik-ru писал(а):
62465131а при сканировании страницы в оттенках серого, избражения выглядят прилично, а сама страница и текст грязно.
Сканируйте в оттенках серого!
Вот что получится после обработки:

Никакого мусора!
Скачать
З.Ы. Можно сделать классную ДжВю-шку. Методом раздельних сканов желательно - будет меньше размер файла.
[Профиль]  [ЛС] 

Gashik-ru

Top Seed 04* 320r

Стаж: 17 лет 8 месяцев

Сообщений: 853

Gashik-ru · 10-Янв-14 00:41 (спустя 1 мин.)

О, спасибо, действительно не додумался попробовать "смешанный".
А в каком смысле "раздельних сканов"?
[Профиль]  [ЛС] 

DjVu-Master

Стаж: 15 лет 6 месяцев

Сообщений: 6123

DjVu-Master · 10-Янв-14 00:59 (спустя 17 мин., ред. 10-Янв-14 00:59)

Gashik-ru писал(а):
62466186О, спасибо, действительно не додумался попробовать "смешанный".
Почитайте внимательно этот ФАК. Посмотрите видео (Видео => Scaning & Djvuing by DjVu-Master).
Да, и сканьте не меньше чем в 400дпи.
Gashik-ru писал(а):
62466186А в каком смысле "раздельних сканов"?
Смотрите
[Профиль]  [ЛС] 

Gashik-ru

Top Seed 04* 320r

Стаж: 17 лет 8 месяцев

Сообщений: 853

Gashik-ru · 10-Янв-14 01:10 (спустя 11 мин.)

По видео не очень понял, кач-во не очень, я так понимаю, это как раз совмещение изображения и текста, то, что я собирался в пэйнте делать, можно делать в djvu-редакторе. Но я замучаюсь, проще все же смешанными делать.
А что касается 400 dpi, то я пытался столько при сканировании выставлять, но сканер отказывается, либо 300 либо 600, но 600 очень долго.
[Профиль]  [ЛС] 

DjVu-Master

Стаж: 15 лет 6 месяцев

Сообщений: 6123

DjVu-Master · 10-Янв-14 01:22 (спустя 11 мин.)

Gashik-ru писал(а):
62466469По видео не очень понял, кач-во не очень,
Скачайте и посмотрите.
[Профиль]  [ЛС] 

$Shorox

Стаж: 16 лет 5 месяцев

Сообщений: 1673

$Shorox · 10-Янв-14 01:38 (спустя 16 мин., ред. 10-Янв-14 01:38)

Gashik-ru,
Почти все программы однокликовые, один раз сделаете, второй раз автоматом будете делать.
В Scan Tailor Featured.
Инструменты -> Экспорт. Разделите сканы на текст и картинки.
В Adope Fotoshop картинки обработайте Sattva Descreen 3.5 for Adobe Photoshop x86 [2003, ENG/RUS]
DjVu Small - соберёте DjVu с текстом.
DjVu Imager - вставите картинки в DjVu с текстом.
Результат в разы лучше получите.
Текст можно в 300 DPI сканировать, с картинками в 600 DPI.
[Профиль]  [ЛС] 

Gashik-ru

Top Seed 04* 320r

Стаж: 17 лет 8 месяцев

Сообщений: 853

Gashik-ru · 10-Янв-14 01:53 (спустя 14 мин.)

DjVu-Master
Ладно, спасибо, буду разбираться.
$Shorox
Чем Scan Tailor отличается от Scan Tailor Featured? Чего-то попробовал экспорт, пишет "не готова для вывода".
В Photoshop вообще ноль, так что желательно поподробней про обработку и так ли оно важно, а то он у меня даже не установлен.
[Профиль]  [ЛС] 

$Shorox

Стаж: 16 лет 5 месяцев

Сообщений: 1673

$Shorox · 10-Янв-14 02:10 (спустя 17 мин., ред. 10-Янв-14 03:10)

Gashik-ru
Scan Tailor Featured - картинки не засвечивает и разделение сканов на текст и картинки.
Поставить Adope Fotoshop не сложно и Sattva Descreen по сути тоже однокликовый плагин.
Вот книга без использования Sattva Descreen и разделения сканов, весит 140 Мб: Фальковский Н. И. - Москва в истории техники [1950, PDF, RUS]
С Sattva Descreen весила бы раза в три меньше и страницы с картинками получше бы выглядели..
[Профиль]  [ЛС] 

Gashik-ru

Top Seed 04* 320r

Стаж: 17 лет 8 месяцев

Сообщений: 853

Gashik-ru · 10-Янв-14 02:17 (спустя 7 мин.)

$Shorox
Ок, спасибо, завтра еще раз попробую все это провернуть.
[Профиль]  [ЛС] 

Irbys27

Top Seed 05* 640r

Стаж: 15 лет 5 месяцев

Сообщений: 2445

Irbys27 · 10-Янв-14 13:08 (спустя 10 часов)

Есть какой-нибудь способ быстро очистить сканы от мелкого мусора (спеклов)? В скантейлоре почему-то такой функции нет.
[Профиль]  [ЛС] 

DjVu-Master

Стаж: 15 лет 6 месяцев

Сообщений: 6123

DjVu-Master · 10-Янв-14 13:30 (спустя 21 мин.)

Arlandok писал(а):
62471233В скантейлоре почему-то такой функции нет.
Есть. Но удаляет не все.
[Профиль]  [ЛС] 

Irbys27

Top Seed 05* 640r

Стаж: 15 лет 5 месяцев

Сообщений: 2445

Irbys27 · 10-Янв-14 13:36 (спустя 6 мин.)

DjVu-Master
Это удаление пятен. Пробовал, спеклы (мелкие черные крапинки) остаются.
[Профиль]  [ЛС] 

DjVu-Master

Стаж: 15 лет 6 месяцев

Сообщений: 6123

DjVu-Master · 10-Янв-14 13:37 (спустя 46 сек.)

Arlandok писал(а):
62471547спеклы (мелкие черные крапинки) остаются.
DjVu-Master писал(а):
62471472Но удаляет не все.
[Профиль]  [ЛС] 

Irbys27

Top Seed 05* 640r

Стаж: 15 лет 5 месяцев

Сообщений: 2445

Irbys27 · 11-Янв-14 08:34 (спустя 18 часов)

DjVu-Master писал(а):
62471552Примечание: после того как вы закодировали (на пример ч/б сканы) в выходной папке создается файл DjVu Encoded.djvu. Его нужно переименовать (например в def.djvu). Потому что когда после вы будете кодировать цветные сканы, то прога DjVu Small его перезапишет.
В опциях программы DjVu Small есть возможность задать любое имя выходного файла. Можно было бы такую возможность упомянуть в описании.
[Профиль]  [ЛС] 

DjVu-Master

Стаж: 15 лет 6 месяцев

Сообщений: 6123

DjVu-Master · 11-Янв-14 13:28 (спустя 4 часа, ред. 11-Янв-14 13:28)

Irbys27 писал(а):
62483067В опциях программы DjVu Small есть возможность задать любое имя выходного файла.
Я знаю. И что это изменит?
Проще руками переименовать. А не заходить в опции.
[Профиль]  [ЛС] 

Loexa

Стаж: 15 лет 8 месяцев

Сообщений: 561

Loexa · 11-Янв-14 23:54 (спустя 10 часов, ред. 12-Янв-14 02:21)

Irbys27 писал(а):
62471547Это удаление пятен. Пробовал, спеклы (мелкие черные крапинки) остаются.
Крупные пятна удаляю вручную в графическом редакторе. Мелкие точки можно частично удалить при кодировании с помощью MiniDjVu Plus (опция "Clear", но проще сразу выбрать "Lossy").
Полное удаление мусора - это пока нерешённая задача.
[Профиль]  [ЛС] 

reduktorer

Стаж: 17 лет 1 месяц

Сообщений: 117


reduktorer · 19-Янв-14 01:23 (спустя 7 дней)

Пользуюсь программой PanaVue Image Assembler для склеивания страниц, которые не влазили в сканер, и которые приходилось сканировать по частям, конкретно страниц журнала Перець и Крокодил. Проблема при склеивании заключалась в том, что там очень мелкий текст и по линии склейки происходило размывание текста. Он двоился и терял четкость. В программе выставлял рекомендуемые в этой теме параметры
https://rutr.life/forum/viewtopic.php?t=4383540
Вот эти параметры
https://fastpic.ru/view/54/2013/0319/2d67f823a58116841736decad64128b7.jpg.html
Эта проблема пропала после того как оставил только галочку Manual stitch, а Image blending поставил 25%.
Возможно это пригодится тому, кто оставляет страницы без дальнейшей обработки.
[Профиль]  [ЛС] 

Flo2010

Стаж: 15 лет 5 месяцев

Сообщений: 87

Flo2010 · 16-Фев-14 15:02 (спустя 28 дней, ред. 16-Фев-14 17:34)

Есть собственноручно отсаканированная в TIFF книжка.
Редкий язык (шведский)
С горем пополам собрала её из TIFF в DJVU, прогнав через FR-11
Но упорно не сохраняется в DJVU текстовой слой, хотя в окне FR он отображается, т.е. FR его все же сделал:
В FR-11

Тот же файл в WinDJView

Как добавить в такой DJVU текстовой слой?
Возможное не распознает из-за редкого языка? Но в настройках FR он проставлен.
Чтобы оставался в сохранности и "картинковый". Картинковый оставляю потому, что язык редкий и сложный. В вычитывать его вот прям параллельно с распознаванием я не могу. Надо чтобы потом, если в процессе чтения-копирования текстового слоя вылезут огрехи, чтобы можно было сравнить с оригиналом.
Про Book Restorer знаю, не могу совладать с функционалом и настройками. Я блондинка.
СканТейлор, который здесь советуют, установлю позже, "сдать" DJVU с распознанным слоем надо через 2 дня, хочется сделать его быстро, пусть даже для первого раза не идеально.
--------------------------
UPD. Вопрос решен. У меня все это время всего лишь режим просмотра DJVU, а не "выделить текст"

Вот, в целом, у был такой алгоритм "Моя первая DJVU книга". Может кому пригодится )))
Этап первый, работа с разрозненныеми картинковыми сканами каждой страницы отдельно.
1. Постраничное сканирование обычным сканером. Лучше в формат TIFF, хотя он и весит намного больше JPG
2. В ACDSee или ином аналоге кропом обрезать лишние куску странниц, оставшиеся при сканировании черные поля и т.д. Стараться, чтобы размер кропа был одинаковым на всем листах.
3. По желанию вручную подчистить в Фотошопе различные мелкие дефекты картинки.
4. Еще раз проверит нумерацию страниц
Этап второй, создание первичного DJVU файла. Он легче по весу чем PDF, открывается быстрее.
1. Открыть прогу FineReader (далее FR) (лучше версию 11, но вроде бы можно и другие, от 8-й)
2. Поставить нужный язык распознавания (Рус, анг+рус, французский, немецкий и т.д.)
Можно проставить галочками несколько языков сразу. Смотря какие языки использованы в отсканированной книжке.
3. загрузить все картинковые файлы, прогнать, рспознать (но на данном этапе распознавание скорее всего не сработает, про это будет ниже).
4. "Сохранить как" DJVU
5. На выходе имеем вместо папки с картинками-страницами весом в 2 Гб один многостраничный файл DJVU весом около 1,5 Мб. Единообразие внешнего вида страничек зависит от того, насколько аккуратно был использован crop при обработке картинок на первом этапе, убраны ли мелкие дефекты изображения в фотошопе и т.д.
6. Проверить, есть ли в DJVU текстовой слой. Не забыть (как это было у меня в первый раз) переключиться с режима "Просмотр" на "Выделить текст" на базовой панели инструментов вашего просмотровика DJVU
Этап три. Добавление в DJVU текстового слоя (ORC), если он не появился автоматом.
1. Открыть FR. Как уже советовали выше по треду, нужна версия программы не ниже ABBYY FineReader 11.0.102.583 Corporate Edition Rus полная версия. (проверить свою версию FR: Cправка - О программе)
2. Как и в первом случает, прогоняем либо папку с TIFF через этот новый FR11, сделать распознавание нужными языками и т.д.
3. "Сохранить как" - "DJVU"
4. Должен появиться текстовой слой.
Этап 4, если текстовой слой все равно не появляется.
1. Скачивается и запускается прога DjvuOCR v2.4 beta4 full
2. Прогнать через неё полученный в FR11 (вер.583...)файл DJVU
3. Вот теперь точно должен появиться текстовой слой.
-----
Прощу прощения у старожилов если открываю Америку и есть более грамотные способы создания DJVU, с вычищенными тенями от корешка и автоматической подгонкой наклона-кропа (а не в ACD-See, как это делала я) и т.д. Но у меня впервые получилось сделать DJVU книжку с ORCи я довольна как слон.
[Профиль]  [ЛС] 

$Shorox

Стаж: 16 лет 5 месяцев

Сообщений: 1673

$Shorox · 16-Фев-14 17:52 (спустя 2 часа 49 мин., ред. 16-Фев-14 17:52)

Flo2010
Вы залейте на zalil.ru одну отсканированную страницу в архиве WinRar. Чтобы легче было понять, что у Вас не получается.
Flo2010 писал(а):
62976866Можно проставить галочками несколько языков сразу. Смотря какие языки использованы в отсканированной книжке.
Лучше будет если проставлять разные языки для конкретной страницы. Если на странице один язык, то лучше распознавать её одним языком.
Если на отдельной странице несколько языков, то тогда переключаете на них из заранее или вновь созданного набора языков.
[Профиль]  [ЛС] 

Irbys27

Top Seed 05* 640r

Стаж: 15 лет 5 месяцев

Сообщений: 2445

Irbys27 · 27-Фев-14 01:34 (спустя 10 дней)

Подскажите программу, которая переводит страницы DjVu книги обратно в графический формат.
[Профиль]  [ЛС] 

DjVu-Master

Стаж: 15 лет 6 месяцев

Сообщений: 6123

DjVu-Master · 27-Фев-14 01:47 (спустя 13 мин.)

Irbys27 писал(а):
63106743Подскажите программу, которая переводит страницы DjVu книги обратно в графический формат.
Лучше этой нету http://www.djvu-soft.narod.ru/soft/djvu_small_v0_4_4.rar

Она распаковывает в макс возможном качестве.
[Профиль]  [ЛС] 

Irbys27

Top Seed 05* 640r

Стаж: 15 лет 5 месяцев

Сообщений: 2445

Irbys27 · 27-Фев-14 02:23 (спустя 35 мин.)

DjVu-Master
Спасибо! Думал, эта программа только кодировать умеет.
[Профиль]  [ЛС] 

tlotr11

Стаж: 17 лет 2 месяца

Сообщений: 527

tlotr11 · 10-Мар-14 00:25 (спустя 10 дней, ред. 10-Мар-14 00:25)

Если позволите, то несколько комментариев от человека, который уже сделал пару книжек.
Flo2010 писал(а):
62976866Этап первый, работа с разрозненныеми картинковыми сканами каждой страницы отдельно.
1. Постраничное сканирование обычным сканером. Лучше в формат TIFF, хотя он и весит намного больше JPG
  1. Не обязательно постраничное. Если при развороте книги нет искажений (твёрдый переплёт, широкие поля), то вполне можно и разворотами сканировать.
  2. Лучше всё же сканировать ламповым (CCD) сканером. Разница в качестве сканирования разворотов книг хорошо показана в картинках статьи Наглядное сравнение сканеров CCD и CIS при сканировании книг
  3. однозначно, tiff. Никаких jpg.
  4. Сканировать всегда не ниже 300dpi в оттенках серого (или в цвете, если книга/иллюстрации цветные). Про чёрно-белое сканирование и разрешение 150dpi забыть.
2. В ACDSee или ином аналоге кропом обрезать лишние куску странниц, оставшиеся при сканировании черные поля и т.д. Стараться, чтобы размер кропа был одинаковым на всем листах.
  1. Абсолютно не нужно! Делается другим инструментом с лучшим качеством, причём автоматически.
3. По желанию вручную подчистить в Фотошопе различные мелкие дефекты картинки.
  1. На первом этапе - не нужно! Сначала прогнать через Scan Tailor!
4. Еще раз проверит нумерацию страниц
  1. Если речь не идёт о том, что был нарушен порядок сканирования, то не нужно. Только перед сборкой книги.
Далее переходите к п.2 сообщения, с которого вся эта тема началась - https://rutr.life/forum/viewtopic.php?t=4383540
Когда будет получен файл djvu, то можно будет приступить к получению тестового слоя OCR:
1. Запустить Finereader 11
2. Перетащить в него djvu-файл, сделанный связкой ScanTailor / Djvu small (другой вариант - перетащить файлы из папки "out" или "export\1" проекта ScanTailor, до кодирования в djvu)
3. Распознать текст, вычитать его по словарю, исправляя ошибки распознавания (и, если есть желание, то и в самих сканах графическим редактором. После этого нужно будет пересобрать djvu)
4. Сохранить распознанный файл в формате DjVu под другим именем! Я обычно добавляю суффикс _FR
5. При помощи утилиты fr11DTLcrutch скопировать текстовый слой из файла, сделанного файнридером в файл, собранный djvu small
5. Продолжить обработку файла программами Djvu Imager / Djvu Pal / PDF & DjVu Bookmarker.
6. Получить результат.
Q: Почему не остановиться на djvu, полученном при помощи Finereader?
A: Значительно хуже качество кодирования
Q: Что это за проги такие?
A:
  1. ScanTailor - в почти автоматическом режиме позволяет получать из сканов выровненные, очищенные от мусора, разрезанные на отдельные страницы, разделённые на рисунки и содержащие текст файлы изображений для раздельного кодирования;
  2. Djvu small - программа-кодировщик/декодировщик djvu. Собирает воедино файл djvu из содержащих текст файлов изображений;
  3. Djvu Imager - программа-кодировщик djvu. Собирает иллюстративную часть файла djvu из файлов с картинками. Они могут быть цветными или полутоновыми. Кодируются данной программой "export\1" проекта ScanTailor отдельно от картинок с текстом для лучшего качества и меньшего размера итогового файла. Рекомендуется перед кодированием картинок прогнать их при помощи программы вроде XnView через фильтр "размытие по Гауссу" с параметром 3..9 для уменьшения размера итогового файла;
  4. fr11DTLcrutch - Программа, пришедшая на смену DjvuOCR для интеграции текстового слоя OCR в файл djvu;
  5. Djvu Pal - программа, позволяющая раскрасить текст в файле djvu;
  6. PDF & DjVu Bookmarker - программа для создания/интеграции в файл djvu дерева оглавления;
  7. Djvu Editor - программа, позволяющая сделать гиперссылки внутри файла, ссылки на другие страницы;
В общем, если есть вопросы, обращайтесь - помогу!
[Профиль]  [ЛС] 

Irbys27

Top Seed 05* 640r

Стаж: 15 лет 5 месяцев

Сообщений: 2445

Irbys27 · 10-Мар-14 09:49 (спустя 9 часов)

Цитата:
Q: Почему не остановиться на djvu, полученном при помощи Finereader?
A: Значительно хуже качество кодирования
Скажите, пожалуйста, существуют какие-нибудь особенные настройки для улучшения кодирования в программе Djvu small? При настройках по умолчанию никаких существенных различий в качестве кодирования от варианта Finereader не увидел (имеется в виду простой текст, а не картинки), кроме более сжатого выходного файла.
[Профиль]  [ЛС] 

$Shorox

Стаж: 16 лет 5 месяцев

Сообщений: 1673

$Shorox · 10-Мар-14 10:11 (спустя 22 мин., ред. 10-Мар-14 10:11)

Irbys27
Можно так попробовать:
В главном окне выберите профиль кодирования: user B/W (600 dpi) + Опции -> Кодировать в Djvu (2) -> Опции текста -> Сохранение деталей (поставить галочку) -> Без потерь (выбрать).
[Профиль]  [ЛС] 

tlotr11

Стаж: 17 лет 2 месяца

Сообщений: 527

tlotr11 · 10-Мар-14 10:45 (спустя 33 мин., ред. 10-Мар-14 10:45)

Irbys27 писал(а):
63231956
Цитата:
Q: Почему не остановиться на djvu, полученном при помощи Finereader?
A: Значительно хуже качество кодирования
Скажите, пожалуйста, существуют какие-нибудь особенные настройки для улучшения кодирования в программе Djvu small? При настройках по умолчанию никаких существенных различий в качестве кодирования от варианта Finereader не увидел (имеется в виду простой текст, а не картинки), кроме более сжатого выходного файла.
Не готов однозначно ответить на данный вопрос. В случае лишь текста, возможно и остановиться на нём. Передо мной всегда стояла задача кодирования в djvu сканов, содержащих иллюстрации, а иногда - большое их количество. Если не путаю, то у меня в паре случаев Finereader отправлял то, что было мной подготовлено для переднего плана на задний и при внедрении туда затем DjVu Imager'ом картинок возникал хаос. Игры с опциями в Djvu small у не приводили к лучшим результатам, чем дефолтные настройки (ну, кроме имени выходного файла. Тут-то качество неимоверно улучшалось! )
[Профиль]  [ЛС] 
 
Ответить
Loading...
Error