|
Loexa
 Стаж: 15 лет 3 месяца Сообщений: 566
|
Loexa ·
21-Окт-13 00:27
(11 лет 4 месяца назад)
Shassukkum писал(а):
61366896Вам совершенно по барабану
Вот именно, что не по барабану. Я в размышлениях. Хочется и рыбку съесть, и аутентичность соблюсти.
Первый вариант понятен и не вызывает возражений. Но второй смотрится как-то странно.
|
|
$Shorox
 Стаж: 16 лет Сообщений: 1673
|
$Shorox ·
21-Окт-13 06:39
(спустя 6 часов)
Shassukkum
Мне не по барабану. Отрезаю в основном только фоновый рисунок. Понимаю что это неправильное решение.
В большинстве моих раздач корешков нет, от старости материала на них мало что осталось или они в новых переплётах.
Да и сами обложки часто надо обрабатывать в Фотошопе.
Простой пример:
Было:
Пририсовал кусок обложки:
Продожая в другом месте начатый разговор. Эту тему я внимательно читаю, много полезного узнаю и применяю на практике. От Вас узнал про Descreen. От Loexa схему:
скрытый текст
Вот краткая схема:
ScanTailor - выравниваем страницы и ваще...
ST Split - отделяем текст от картинок.
DjVu Solo или DjVu Small - кодируем текст.
CuneiDjVu - распознавание текста.
Графический редактор с пакетной обработкой - удалить с картинок типографский растр.
DjVu Imager - вклеиваем картинки.
и про черную прокладку под страницы.
Как Вы правильно написали, что мало книжных асов посещают эту и эту тему FAQ по созданию DjVu книги из сырых сканов.
Да и самих раздачах про качество почти ничего никто не пишет: в отсканированных мною 179 книгах всего два комментария по качеству: один раз барыга обругал за распознавание, один раз похвалили.
|
|
Shassukkum
Стаж: 15 лет 11 месяцев Сообщений: 1179
|
Shassukkum ·
21-Окт-13 12:43
(спустя 6 часов)
Loexa писал(а):
61367036Первый вариант понятен и не вызывает возражений. Но второй смотрится как-то странно.
А ничего странного во втором варианте нет. Кто хочет - оставляет книгу как есть, а кому две последние страницы (белая и "разворот") мусолят глаз - убирает их нафиг в том же Лизардтеше. Делов, на одну минуту.
$Shorox писал(а):
61368299Мне не по барабану. Отрезаю в основном только фоновый рисунок. Понимаю что это неправильное решение.
В большинстве моих раздач корешков нет, от старости материала на них мало что осталось или они в новых переплётах.
Да и сами обложки часто надо обрабатывать в Фотошопе.
Простой пример:
Было:
Пририсовал кусок обложки:
Отлично получилось! Я тоже довольно часто редактирую страницы с рисунком/фото.
скрытый текст
Продожая в другом месте начатый разговор. Эту тему я внимательно читаю, много полезного узнаю и применяю на практике. От Вас узнал про Descreen. От Loexa схему:
скрытый текст
Вот краткая схема:
ScanTailor - выравниваем страницы и ваще...
ST Split - отделяем текст от картинок.
DjVu Solo или DjVu Small - кодируем текст.
CuneiDjVu - распознавание текста.
Графический редактор с пакетной обработкой - удалить с картинок типографский растр.
DjVu Imager - вклеиваем картинки.
и про черную прокладку под страницы.
Радует то что тема ещё жива. Хоть и персонажей здесь не особо густо. Заходите почаще)
Цитата:
Как Вы правильно написали, что мало книжных асов посещают эту и эту тему FAQ по созданию DjVu книги из сырых сканов.
Да и самих раздачах про качество почти ничего никто не пишет: в отсканированных мною 179 книгах всего два комментария по качеству: один раз барыга обругал за распознавание, один раз похвалили.
1:1 значит. Не переживайте особо, важно что бы Вы сами получали позитив от своей работы.
Чего и остальным желаю.
|
|
$Shorox
 Стаж: 16 лет Сообщений: 1673
|
$Shorox ·
21-Окт-13 19:22
(спустя 6 часов)
|
|
Alex111234
Стаж: 15 лет 1 месяц Сообщений: 44
|
Alex111234 ·
31-Окт-13 22:46
(спустя 10 дней)
Цитата:
Здесь включаем (опять держа Ctrl) флажок Correct Illumination (Коррекция освещенности). Параметры - как на рисунке.
Нет рисунка.
|
|
wwst
Стаж: 14 лет 9 месяцев Сообщений: 12
|
wwst ·
10-Ноя-13 15:24
(спустя 9 дней, ред. 10-Ноя-13 15:24)
Цитата:
В этой раздаче 17 и 18 тома в формате DjVu. Я перевел их в PDF, соединил, оснастил OCR-cлоем в старой русской орфографии и выложил на хостинге картинок.
Там принимают файлы до 10 мб, а у меня вышло 9,4 мб (637 стр.). Это примерно вдвое меньше, чем весят эти книги в DjVu.
Технология изготовления.
1. Открыл файл DjVu в бесплатной, но очень мощной по возможностям, программе IrfanView и просто сохранил его, как PDF.
Вышло примерно по 40 мб каждый файл. Две минуты времени.
http://www.irfanview.com/
2. Программкой Portable pdf2word (она еще называется Рortable PDF Converter, найти легко) вытащил из PDF изображения в формате .png. В данном случае они уже были с одним цветом - экономные. Менее минуты. Но размеры мне не понравились. DjVu любит баловаться с геометрией. Посмотрел выходные данные книги: формат 7х10,8
3. Программой IrfanView поточно поменял размеры картинок страниц в соответствии в пропорциями и сохранил их, но уже как файлы .tif с разрешением 1455х2245, 96 точек на дюйм (глубина цвета 1, сжатие CCITT T.6). Около минуты.
4. Программой IrfanView собрал из полученных картинок новый PDF (операции с могостраничными изображениями). Размеры файлов подсократилсь вдвое, визуальное качество страниц меня устроило.
5. В программе ABBYY PDF Transformer 3.0 (она есть в раздачах) проконвертировал полученные файлы PDF в PDF с поиском. Причем языком PDF-документа выставил Русский (старая орфография). Находится в дополнительных опциях языков. На выходе получил два файла с OCR-cлоем размерами 5 и 6 мб. Примерно по полчаса.
6. Объединил эти файлы в один в той же программе ABBYY PDF Transformer 3.0. Минута. Размер вышел 9,4 мб.
7. Открыл этот файл в Адоуб ридере и сохранил как PDF. Размер еще чуть уменьшился, при этом появились функции просмотра онлайн.
8. Последний файл выложил на хостинг картинок. Его можно читать онлайн, причем поиск работает. Или сохранить себе на комп, как PDF. Можете взять на замену DjVu в раздаче. OCR-cлой там очень неплохой. Кликайте 
danilamaster245 писал(а):
Объем файлов практически сравнялся в FR11, DjVu = PDF
У меня даже уменьшился вдвое. Качество - не хуже. Исходная книга выглядела именно так.
|
|
$Shorox
 Стаж: 16 лет Сообщений: 1673
|
$Shorox ·
10-Ноя-13 15:44
(спустя 20 мин., ред. 10-Ноя-13 15:58)
wwst
За инструкцию спасибо. Пригодится в будующем.
В книгах без иллюстраций основной вес получается из-за цветной обложки. Она у Вас не совсем в исходном цвете. Я обложки сильно не сжимаю.
|
|
aa666
Стаж: 18 лет 1 месяц Сообщений: 410
|
aa666 ·
10-Ноя-13 15:53
(спустя 8 мин.)
wwst писал(а):
61658828OCR-cлой там очень неплохой. Кликайте
кликнул
так Днля или Двля?
неплохой OCR, да
учитывая стоимость 10мб на винте (что-то около 2х копеек), у вас дохера своободного времени, как я посмотрю
|
|
Shassukkum
Стаж: 15 лет 11 месяцев Сообщений: 1179
|
Shassukkum ·
10-Ноя-13 17:14
(спустя 1 час 20 мин.)
wwst писал(а):
61658828Я перевел их в PDF, соединил, оснастил OCR-cлоем в старой русской орфографии <...>
5. В программе ABBYY PDF Transformer 3.0 (она есть в раздачах) проконвертировал полученные файлы PDF в PDF с поиском. Причем языком PDF-документа выставил Русский (старая орфография). Находится в дополнительных опциях языков. На выходе получил два файла с OCR-cлоем размерами 5 и 6 мб. Примерно по полчаса.
Прекрасно. Такой вариант прокатывает когда шрифт супер-классный. А вообще, советовал бы на будущее распознавать ФайнРидером с подключённым словарём старореформки. Так гораздо кошернее выходит в итоге.
aa666 писал(а):
61659871так Днля или Двля?
Значит, не супер-классный
|
|
wwst
Стаж: 14 лет 9 месяцев Сообщений: 12
|
wwst ·
10-Ноя-13 17:37
(спустя 23 мин., ред. 10-Ноя-13 17:37)
aa666
Мой ОСR безусловно лучше, чем у 15 тома из той же раздачи. Можете выгрузить в любой текстовой редактор, и сравнить. Размер тут не при чем. Просто словарь правильный. Дореволюционный. Был бы скан нормальный, точный - а не эта кривая нестандартная клинопись, которая обычно получается в дежавю, программа распознала бы всё верно. А так - есть отдельные недочеты. но и только. Читать не мешает, и правка в текстовом редакторе, если потребуется, минимальна. В отличие от ОСR тома 15.
Shassukkum писал(а):
А вообще, советовал бы на будущее распознавать ФайнРидером
ABBYY PDF Transformer оно самое и есть. Просто усеченная. Словарь один и тот же.
|
|
aa666
Стаж: 18 лет 1 месяц Сообщений: 410
|
aa666 ·
10-Ноя-13 17:59
(спустя 21 мин.)
wwst писал(а):
61661476Читать не мешает
aa666 писал(а):
61659871так Днля или Двля?
|
|
Shassukkum
Стаж: 15 лет 11 месяцев Сообщений: 1179
|
Shassukkum ·
10-Ноя-13 18:18
(спустя 19 мин.)
wwst писал(а):
61661476Был бы скан нормальный, точный - а не эта кривая нестандартная клинопись, которая обычно получается в дежавю, <...>
Обычно, в DjVu получается как надо, если руки прямые конечно.
Цитата:
ABBYY PDF Transformer оно самое и есть. Просто усеченная. Словарь один и тот же.
А неверно распознанные слова в документе Вы тоже ABBYY PDF Transformer'ом править собираетесь?)
|
|
$Shorox
 Стаж: 16 лет Сообщений: 1673
|
$Shorox ·
10-Ноя-13 19:10
(спустя 52 мин.)
wwst
Я текст в своих раздачах побуквенно не вычитываю. В основном выставляю язык страницы и границы областей. 15 том когда делал, то про ОСR смутные понятия имёл. Да и сейчас не очень в этом разбираюсь.
|
|
wwst
Стаж: 14 лет 9 месяцев Сообщений: 12
|
wwst ·
10-Ноя-13 19:39
(спустя 28 мин., ред. 10-Ноя-13 19:39)
Shassukkum писал(а):
А неверно распознанные слова в документе Вы тоже ABBYY PDF Transformer'ом править собираетесь?)
Я вообще могу из него тупо сохранить в Ворд и править там всё, что душе угодно. А потом из исправленного файла в Ворде - назад в ПДФ, и уже никакого подстрочника не надо: он сразу есть 
Но в данном конкретном случае я просто пошел другим путем. Взял и оцифровал в нем самый первый ПДФ, полученный одним кликом из дежавю в программе IrfanView. Тот, который весил 40 мб. Но при этом установил в настройках галочку "использовать MRC-сжатие". В результате файл на выходе сжался до 15 мб, а "Диля" и проч. - отражается и в OCR - всё правильно. Почти 100%. Потом я соединил обе части и выгрузил для совместимости с онлайн-просмотром. Но вышло таки 28,6 мб. Такой размер для онлайн-просмотра не выложить. Вот он, на Яндекс-диске, только скачка. Вернее, у них как бы есть просмотр, но это одно название. http://yadi.sk/d/HEyjw5frCT9Qy
|
|
SI{AY
 Стаж: 16 лет 11 месяцев Сообщений: 1318
|
SI{AY ·
10-Ноя-13 23:06
(спустя 3 часа, ред. 10-Ноя-13 23:06)
wwst
чтоб избеждать и->н и подобного в дежавюшках, можно documenttodjvu.exe (это тот что в Lizardtech Document Express) запускать с параметров --lossless
в DjVuSolo есть соответствующая опция в настройках (но надо чтоб dpi не менее 600) и делать обязательно отдельно от рисунков)
|
|
$Shorox
 Стаж: 16 лет Сообщений: 1673
|
$Shorox ·
10-Ноя-13 23:33
(спустя 26 мин., ред. 10-Ноя-13 23:33)
SI{AY
SI{AY писал(а):
61666911запускать с параметров --lossless
Спасибо, жаль что не год назад это узнал.
Сканирую в основном в 600 DPI.
|
|
ikea999
Стаж: 12 лет 6 месяцев Сообщений: 60
|
ikea999 ·
24-Ноя-13 20:42
(спустя 13 дней)
если сканы в pdf (по одному развороту, т.е. по две стр.), как использовать кромсатор? конвертить pdf -> tiff или есть какаой-то более разумный метод?
|
|
Loexa
 Стаж: 15 лет 3 месяца Сообщений: 566
|
Loexa ·
24-Ноя-13 21:37
(спустя 55 мин.)
ikea999
Не используйте Кромсатор, используйте ScanTailor, а лучше ScanTailor Featured. Для pdf -> tiff удобны XnView, STDU viewer, PDF-XChange Viewerю
|
|
aa666
Стаж: 18 лет 1 месяц Сообщений: 410
|
aa666 ·
24-Ноя-13 21:46
(спустя 8 мин.)
pdf -> tiff кромсатор и сам умеет...
|
|
ikea999
Стаж: 12 лет 6 месяцев Сообщений: 60
|
ikea999 ·
24-Ноя-13 22:26
(спустя 40 мин.)
Loexa уже разобрался, в кромсаторе присутствует импорт PDF а чем лучше ScanTailor? вроде, те же функции-возможности?
|
|
$Shorox
 Стаж: 16 лет Сообщений: 1673
|
$Shorox ·
24-Ноя-13 22:39
(спустя 13 мин.)
ikea999
Где-то здесь в теме хорошо сказано: "С вертолёта на легковушку пересесть".
|
|
Shassukkum
Стаж: 15 лет 11 месяцев Сообщений: 1179
|
Shassukkum ·
25-Ноя-13 00:26
(спустя 1 час 46 мин.)
ikea999 писал(а):
61857249<...> вроде, те же функции-возможности?
Деварпинга, в трёх вариациях, в Кромсаторе нет. Точнее, в Кромсаторе вообще нет никакого деварпинга. Так что, если Вы не владелец книжного сканера и Вам не хочется уродовать свои сканы то-о, милости прошу в клуб любителей ScanTailorFeatured'а.
Согласен, можно по старинке пропустить сканы через Book Restorer, но в Тэйлоре настройки более гибче.
Это так, одна из нескольких причин против Кромсатора.
|
|
DjVu-Master
 Стаж: 15 лет 1 месяц Сообщений: 6137
|
DjVu-Master ·
23-Дек-13 02:07
(спустя 28 дней, ред. 23-Дек-13 02:07)
reduktorer писал(а):
62225893Подскажите, пожалуйста, как люди достигли таких результатов?
FAQ по созданию DjVu книги из сырых сканов
|
|
Джоконда555
Стаж: 15 лет 1 месяц Сообщений: 1
|
Джоконда555 ·
15-Фев-14 23:40
(спустя 1 месяц 23 дня)
Спасибо огромное за ваш труд, результат меня восхитил - я даже не надеялась на такой результат, когда начинала, так как книга со множеством схем и формул. Вывела в формате pdf, решила сразу же освоить djvu, но столкнулась с проблемой. Не запускается приложение Workflow Manager, появляется такое окошко:
Следующее окно, если нажимаю отмена:
Подскажите, пожалуйста, как это исправить?
|
|
Loexa
 Стаж: 15 лет 3 месяца Сообщений: 566
|
Loexa ·
16-Фев-14 14:57
(спустя 15 часов, ред. 03-Апр-14 00:33)
Джоконда555
Режим телепатии ON:
Эта фигня выскакивает при запуске Document Express Editor?
Режим телепатии OFF:
А он вам сильно нужен? И без него собирается без проблем.
|
|
dm137
Стаж: 12 лет 2 месяца Сообщений: 6
|
dm137 ·
23-Фев-14 15:17
(спустя 7 дней)
Поясните пожалуйста в отношении п. 3 этого руководства - "Шаг 3. Распознавание и первичная вычитка" - после того как файнридер распознает сканы обработанные кромсатором, в каком формате их сохранять файнридером - как tiff или как djvu?
|
|
Dark_Ambient
  Стаж: 17 лет Сообщений: 16092
|
Dark_Ambient ·
26-Мар-14 08:41
(спустя 1 месяц 2 дня)
Кто поможет отбелить сканы? а то у меня никак не получается убрать серый фон.
Вот ссылка на архив http:// СПАМ
|
|
DjVu-Master
 Стаж: 15 лет 1 месяц Сообщений: 6137
|
DjVu-Master ·
26-Мар-14 10:08
(спустя 1 час 27 мин., ред. 26-Мар-14 21:13)
Dark_Ambient писал(а):
63416459а то у меня никак не получается убрать серый фон.
Никакого серого я там не вижу. Здесь чисто ч/б скан.
Вы сканили в оттенках серого?
Отсканьте в цвете и залейте на обменник.
|
|
slava_kry
Стаж: 17 лет 10 месяцев Сообщений: 244
|
slava_kry ·
31-Мар-14 14:56
(спустя 5 дней)
|
|
DjVu-Master
 Стаж: 15 лет 1 месяц Сообщений: 6137
|
DjVu-Master ·
31-Мар-14 15:12
(спустя 16 мин.)
|
|
|