Архив: Создание электронных книг из сканов: как получить DjVu или PDF из бумажной книги? [2160930]

Страницы :   Пред.  1, 2, 3 ... 55, 56, 57 ... 96, 97, 98  След.
Тема закрыта
 

Loexa

Стаж: 15 лет 3 месяца

Сообщений: 566

Loexa · 21-Окт-13 00:27 (11 лет 4 месяца назад)

Shassukkum писал(а):
61366896Вам совершенно по барабану
Вот именно, что не по барабану. Я в размышлениях. Хочется и рыбку съесть, и аутентичность соблюсти.
Первый вариант понятен и не вызывает возражений. Но второй смотрится как-то странно.
[Профиль]  [ЛС] 

$Shorox

Стаж: 16 лет

Сообщений: 1673

$Shorox · 21-Окт-13 06:39 (спустя 6 часов)

Shassukkum
Мне не по барабану. Отрезаю в основном только фоновый рисунок. Понимаю что это неправильное решение.
В большинстве моих раздач корешков нет, от старости материала на них мало что осталось или они в новых переплётах.
Да и сами обложки часто надо обрабатывать в Фотошопе.
Простой пример:
Было:
скрытый текст
Пририсовал кусок обложки:
скрытый текст
Продожая в другом месте начатый разговор. Эту тему я внимательно читаю, много полезного узнаю и применяю на практике. От Вас узнал про Descreen. От Loexa схему:
скрытый текст
Вот краткая схема:
ScanTailor - выравниваем страницы и ваще...
ST Split - отделяем текст от картинок.
DjVu Solo или DjVu Small - кодируем текст.
CuneiDjVu - распознавание текста.
Графический редактор с пакетной обработкой - удалить с картинок типографский растр.
DjVu Imager - вклеиваем картинки.
и про черную прокладку под страницы.
Как Вы правильно написали, что мало книжных асов посещают эту и эту тему FAQ по созданию DjVu книги из сырых сканов.
Да и самих раздачах про качество почти ничего никто не пишет: в отсканированных мною 179 книгах всего два комментария по качеству: один раз барыга обругал за распознавание, один раз похвалили.
[Профиль]  [ЛС] 

Shassukkum

Стаж: 15 лет 11 месяцев

Сообщений: 1179


Shassukkum · 21-Окт-13 12:43 (спустя 6 часов)

Loexa писал(а):
61367036Первый вариант понятен и не вызывает возражений. Но второй смотрится как-то странно.
А ничего странного во втором варианте нет. Кто хочет - оставляет книгу как есть, а кому две последние страницы (белая и "разворот") мусолят глаз - убирает их нафиг в том же Лизардтеше. Делов, на одну минуту.
$Shorox писал(а):
61368299Мне не по барабану. Отрезаю в основном только фоновый рисунок. Понимаю что это неправильное решение.
В большинстве моих раздач корешков нет, от старости материала на них мало что осталось или они в новых переплётах.
Да и сами обложки часто надо обрабатывать в Фотошопе.
Простой пример:
Было:
скрытый текст
Пририсовал кусок обложки:
скрытый текст
Отлично получилось! Я тоже довольно часто редактирую страницы с рисунком/фото.
скрытый текст
Продожая в другом месте начатый разговор. Эту тему я внимательно читаю, много полезного узнаю и применяю на практике. От Вас узнал про Descreen. От Loexa схему:
скрытый текст
Вот краткая схема:
ScanTailor - выравниваем страницы и ваще...
ST Split - отделяем текст от картинок.
DjVu Solo или DjVu Small - кодируем текст.
CuneiDjVu - распознавание текста.
Графический редактор с пакетной обработкой - удалить с картинок типографский растр.
DjVu Imager - вклеиваем картинки.
и про черную прокладку под страницы.
Радует то что тема ещё жива. Хоть и персонажей здесь не особо густо. Заходите почаще)
Цитата:
Как Вы правильно написали, что мало книжных асов посещают эту и эту тему FAQ по созданию DjVu книги из сырых сканов.
Да и самих раздачах про качество почти ничего никто не пишет: в отсканированных мною 179 книгах всего два комментария по качеству: один раз барыга обругал за распознавание, один раз похвалили.
1:1 значит. Не переживайте особо, важно что бы Вы сами получали позитив от своей работы.
Чего и остальным желаю.
[Профиль]  [ЛС] 

$Shorox

Стаж: 16 лет

Сообщений: 1673

$Shorox · 21-Окт-13 19:22 (спустя 6 часов)

Shassukkum, Loexa
Сделал обложка + корешок: Перевалов В. А. - Ломоносов и Арктика [1949, DjVu, RUS]
[Профиль]  [ЛС] 

Alex111234

Стаж: 15 лет 1 месяц

Сообщений: 44


Alex111234 · 31-Окт-13 22:46 (спустя 10 дней)

Цитата:
Здесь включаем (опять держа Ctrl) флажок Correct Illumination (Коррекция освещенности). Параметры - как на рисунке.
Нет рисунка.
[Профиль]  [ЛС] 

wwst

Стаж: 14 лет 9 месяцев

Сообщений: 12


wwst · 10-Ноя-13 15:24 (спустя 9 дней, ред. 10-Ноя-13 15:24)

Цитата:
$Shorox писал(а):
Вот здесь с корешком сделал, один опыт более-менее, второй не очень: Гессен И. В. - Архивъ русской революцiи т.т. 15-18 / Архив русской революции т.т. 15-18 [1993, PDF, RUS]
В этой раздаче 17 и 18 тома в формате DjVu. Я перевел их в PDF, соединил, оснастил OCR-cлоем в старой русской орфографии и выложил на хостинге картинок.
Там принимают файлы до 10 мб, а у меня вышло 9,4 мб (637 стр.). Это примерно вдвое меньше, чем весят эти книги в DjVu.
Технология изготовления.
1. Открыл файл DjVu в бесплатной, но очень мощной по возможностям, программе IrfanView и просто сохранил его, как PDF.
Вышло примерно по 40 мб каждый файл. Две минуты времени.
http://www.irfanview.com/
2. Программкой Portable pdf2word (она еще называется Рortable PDF Converter, найти легко) вытащил из PDF изображения в формате .png. В данном случае они уже были с одним цветом - экономные. Менее минуты. Но размеры мне не понравились. DjVu любит баловаться с геометрией. Посмотрел выходные данные книги: формат 7х10,8
3. Программой IrfanView поточно поменял размеры картинок страниц в соответствии в пропорциями и сохранил их, но уже как файлы .tif с разрешением 1455х2245, 96 точек на дюйм (глубина цвета 1, сжатие CCITT T.6). Около минуты.
4. Программой IrfanView собрал из полученных картинок новый PDF (операции с могостраничными изображениями). Размеры файлов подсократилсь вдвое, визуальное качество страниц меня устроило.
5. В программе ABBYY PDF Transformer 3.0 (она есть в раздачах) проконвертировал полученные файлы PDF в PDF с поиском. Причем языком PDF-документа выставил Русский (старая орфография). Находится в дополнительных опциях языков. На выходе получил два файла с OCR-cлоем размерами 5 и 6 мб. Примерно по полчаса.
6. Объединил эти файлы в один в той же программе ABBYY PDF Transformer 3.0. Минута. Размер вышел 9,4 мб.
7. Открыл этот файл в Адоуб ридере и сохранил как PDF. Размер еще чуть уменьшился, при этом появились функции просмотра онлайн.
8. Последний файл выложил на хостинг картинок. Его можно читать онлайн, причем поиск работает. Или сохранить себе на комп, как PDF. Можете взять на замену DjVu в раздаче. OCR-cлой там очень неплохой. Кликайте
danilamaster245 писал(а):
Объем файлов практически сравнялся в FR11, DjVu = PDF
У меня даже уменьшился вдвое. Качество - не хуже. Исходная книга выглядела именно так.
[Профиль]  [ЛС] 

$Shorox

Стаж: 16 лет

Сообщений: 1673

$Shorox · 10-Ноя-13 15:44 (спустя 20 мин., ред. 10-Ноя-13 15:58)

wwst
За инструкцию спасибо. Пригодится в будующем.
В книгах без иллюстраций основной вес получается из-за цветной обложки. Она у Вас не совсем в исходном цвете. Я обложки сильно не сжимаю.
[Профиль]  [ЛС] 

aa666

Стаж: 18 лет 1 месяц

Сообщений: 410


aa666 · 10-Ноя-13 15:53 (спустя 8 мин.)

wwst писал(а):
61658828OCR-cлой там очень неплохой. Кликайте
кликнул


так Днля или Двля?
неплохой OCR, да
учитывая стоимость 10мб на винте (что-то около 2х копеек), у вас дохера своободного времени, как я посмотрю
[Профиль]  [ЛС] 

Shassukkum

Стаж: 15 лет 11 месяцев

Сообщений: 1179


Shassukkum · 10-Ноя-13 17:14 (спустя 1 час 20 мин.)

wwst писал(а):
61658828Я перевел их в PDF, соединил, оснастил OCR-cлоем в старой русской орфографии <...>
5. В программе ABBYY PDF Transformer 3.0 (она есть в раздачах) проконвертировал полученные файлы PDF в PDF с поиском. Причем языком PDF-документа выставил Русский (старая орфография). Находится в дополнительных опциях языков. На выходе получил два файла с OCR-cлоем размерами 5 и 6 мб. Примерно по полчаса.
Прекрасно. Такой вариант прокатывает когда шрифт супер-классный. А вообще, советовал бы на будущее распознавать ФайнРидером с подключённым словарём старореформки. Так гораздо кошернее выходит в итоге.
aa666 писал(а):
61659871так Днля или Двля?
Значит, не супер-классный
[Профиль]  [ЛС] 

wwst

Стаж: 14 лет 9 месяцев

Сообщений: 12


wwst · 10-Ноя-13 17:37 (спустя 23 мин., ред. 10-Ноя-13 17:37)

aa666
Мой ОСR безусловно лучше, чем у 15 тома из той же раздачи. Можете выгрузить в любой текстовой редактор, и сравнить. Размер тут не при чем. Просто словарь правильный. Дореволюционный. Был бы скан нормальный, точный - а не эта кривая нестандартная клинопись, которая обычно получается в дежавю, программа распознала бы всё верно. А так - есть отдельные недочеты. но и только. Читать не мешает, и правка в текстовом редакторе, если потребуется, минимальна. В отличие от ОСR тома 15.
Shassukkum писал(а):
А вообще, советовал бы на будущее распознавать ФайнРидером
ABBYY PDF Transformer оно самое и есть. Просто усеченная. Словарь один и тот же.
[Профиль]  [ЛС] 

aa666

Стаж: 18 лет 1 месяц

Сообщений: 410


aa666 · 10-Ноя-13 17:59 (спустя 21 мин.)

wwst писал(а):
61661476Читать не мешает
aa666 писал(а):
61659871так Днля или Двля?
[Профиль]  [ЛС] 

Shassukkum

Стаж: 15 лет 11 месяцев

Сообщений: 1179


Shassukkum · 10-Ноя-13 18:18 (спустя 19 мин.)

wwst писал(а):
61661476Был бы скан нормальный, точный - а не эта кривая нестандартная клинопись, которая обычно получается в дежавю, <...>
Обычно, в DjVu получается как надо, если руки прямые конечно.
Цитата:
ABBYY PDF Transformer оно самое и есть. Просто усеченная. Словарь один и тот же.
А неверно распознанные слова в документе Вы тоже ABBYY PDF Transformer'ом править собираетесь?)
[Профиль]  [ЛС] 

$Shorox

Стаж: 16 лет

Сообщений: 1673

$Shorox · 10-Ноя-13 19:10 (спустя 52 мин.)

wwst
Я текст в своих раздачах побуквенно не вычитываю. В основном выставляю язык страницы и границы областей. 15 том когда делал, то про ОСR смутные понятия имёл. Да и сейчас не очень в этом разбираюсь.
[Профиль]  [ЛС] 

wwst

Стаж: 14 лет 9 месяцев

Сообщений: 12


wwst · 10-Ноя-13 19:39 (спустя 28 мин., ред. 10-Ноя-13 19:39)

Shassukkum писал(а):
А неверно распознанные слова в документе Вы тоже ABBYY PDF Transformer'ом править собираетесь?)
Я вообще могу из него тупо сохранить в Ворд и править там всё, что душе угодно. А потом из исправленного файла в Ворде - назад в ПДФ, и уже никакого подстрочника не надо: он сразу есть
Но в данном конкретном случае я просто пошел другим путем. Взял и оцифровал в нем самый первый ПДФ, полученный одним кликом из дежавю в программе IrfanView. Тот, который весил 40 мб. Но при этом установил в настройках галочку "использовать MRC-сжатие". В результате файл на выходе сжался до 15 мб, а "Диля" и проч. - отражается и в OCR - всё правильно. Почти 100%. Потом я соединил обе части и выгрузил для совместимости с онлайн-просмотром. Но вышло таки 28,6 мб. Такой размер для онлайн-просмотра не выложить. Вот он, на Яндекс-диске, только скачка. Вернее, у них как бы есть просмотр, но это одно название.
http://yadi.sk/d/HEyjw5frCT9Qy
[Профиль]  [ЛС] 

SI{AY

Стаж: 16 лет 11 месяцев

Сообщений: 1318

SI{AY · 10-Ноя-13 23:06 (спустя 3 часа, ред. 10-Ноя-13 23:06)

wwst
чтоб избеждать и->н и подобного в дежавюшках, можно documenttodjvu.exe (это тот что в Lizardtech Document Express) запускать с параметров --lossless
в DjVuSolo есть соответствующая опция в настройках (но надо чтоб dpi не менее 600) и делать обязательно отдельно от рисунков)
[Профиль]  [ЛС] 

$Shorox

Стаж: 16 лет

Сообщений: 1673

$Shorox · 10-Ноя-13 23:33 (спустя 26 мин., ред. 10-Ноя-13 23:33)

SI{AY
SI{AY писал(а):
61666911запускать с параметров --lossless
Спасибо, жаль что не год назад это узнал.
Сканирую в основном в 600 DPI.
[Профиль]  [ЛС] 

ikea999

Стаж: 12 лет 6 месяцев

Сообщений: 60


ikea999 · 24-Ноя-13 20:42 (спустя 13 дней)

если сканы в pdf (по одному развороту, т.е. по две стр.), как использовать кромсатор? конвертить pdf -> tiff или есть какаой-то более разумный метод?
[Профиль]  [ЛС] 

Loexa

Стаж: 15 лет 3 месяца

Сообщений: 566

Loexa · 24-Ноя-13 21:37 (спустя 55 мин.)

ikea999
Не используйте Кромсатор, используйте ScanTailor, а лучше ScanTailor Featured. Для pdf -> tiff удобны XnView, STDU viewer, PDF-XChange Viewerю
[Профиль]  [ЛС] 

aa666

Стаж: 18 лет 1 месяц

Сообщений: 410


aa666 · 24-Ноя-13 21:46 (спустя 8 мин.)

pdf -> tiff кромсатор и сам умеет...
[Профиль]  [ЛС] 

ikea999

Стаж: 12 лет 6 месяцев

Сообщений: 60


ikea999 · 24-Ноя-13 22:26 (спустя 40 мин.)

Loexa
уже разобрался, в кромсаторе присутствует импорт PDF
а чем лучше ScanTailor? вроде, те же функции-возможности?
[Профиль]  [ЛС] 

$Shorox

Стаж: 16 лет

Сообщений: 1673

$Shorox · 24-Ноя-13 22:39 (спустя 13 мин.)

ikea999
Где-то здесь в теме хорошо сказано: "С вертолёта на легковушку пересесть".
[Профиль]  [ЛС] 

Shassukkum

Стаж: 15 лет 11 месяцев

Сообщений: 1179


Shassukkum · 25-Ноя-13 00:26 (спустя 1 час 46 мин.)

ikea999 писал(а):
61857249<...> вроде, те же функции-возможности?
Деварпинга, в трёх вариациях, в Кромсаторе нет. Точнее, в Кромсаторе вообще нет никакого деварпинга. Так что, если Вы не владелец книжного сканера и Вам не хочется уродовать свои сканы то-о, милости прошу в клуб любителей ScanTailorFeatured'а.
Согласен, можно по старинке пропустить сканы через Book Restorer, но в Тэйлоре настройки более гибче.
Это так, одна из нескольких причин против Кромсатора.
[Профиль]  [ЛС] 

DjVu-Master

Стаж: 15 лет 1 месяц

Сообщений: 6137

DjVu-Master · 23-Дек-13 02:07 (спустя 28 дней, ред. 23-Дек-13 02:07)

reduktorer писал(а):
62225893Подскажите, пожалуйста, как люди достигли таких результатов?
FAQ по созданию DjVu книги из сырых сканов
[Профиль]  [ЛС] 

Джоконда555

Стаж: 15 лет 1 месяц

Сообщений: 1


Джоконда555 · 15-Фев-14 23:40 (спустя 1 месяц 23 дня)

Спасибо огромное за ваш труд, результат меня восхитил - я даже не надеялась на такой результат, когда начинала, так как книга со множеством схем и формул. Вывела в формате pdf, решила сразу же освоить djvu, но столкнулась с проблемой. Не запускается приложение Workflow Manager, появляется такое окошко:

Следующее окно, если нажимаю отмена:

Подскажите, пожалуйста, как это исправить?
[Профиль]  [ЛС] 

Loexa

Стаж: 15 лет 3 месяца

Сообщений: 566

Loexa · 16-Фев-14 14:57 (спустя 15 часов, ред. 03-Апр-14 00:33)

Джоконда555
Режим телепатии ON:
Эта фигня выскакивает при запуске Document Express Editor?
Режим телепатии OFF:
А он вам сильно нужен? И без него собирается без проблем.
[Профиль]  [ЛС] 

dm137

Стаж: 12 лет 2 месяца

Сообщений: 6


dm137 · 23-Фев-14 15:17 (спустя 7 дней)

Поясните пожалуйста в отношении п. 3 этого руководства - "Шаг 3. Распознавание и первичная вычитка" - после того как файнридер распознает сканы обработанные кромсатором, в каком формате их сохранять файнридером - как tiff или как djvu?
[Профиль]  [ЛС] 

Dark_Ambient

Top Seed 09* 10240r

Стаж: 17 лет

Сообщений: 16092

Dark_Ambient · 26-Мар-14 08:41 (спустя 1 месяц 2 дня)

Кто поможет отбелить сканы? а то у меня никак не получается убрать серый фон.
Вот ссылка на архив
http:// СПАМ
[Профиль]  [ЛС] 

DjVu-Master

Стаж: 15 лет 1 месяц

Сообщений: 6137

DjVu-Master · 26-Мар-14 10:08 (спустя 1 час 27 мин., ред. 26-Мар-14 21:13)

Dark_Ambient писал(а):
63416459а то у меня никак не получается убрать серый фон.
Никакого серого я там не вижу. Здесь чисто ч/б скан.
Вы сканили в оттенках серого?
Отсканьте в цвете и залейте на обменник.
[Профиль]  [ЛС] 

slava_kry

Стаж: 17 лет 10 месяцев

Сообщений: 244


slava_kry · 31-Мар-14 14:56 (спустя 5 дней)

Dark_Ambient
http://rghost.ru/53627175
[Профиль]  [ЛС] 

DjVu-Master

Стаж: 15 лет 1 месяц

Сообщений: 6137

DjVu-Master · 31-Мар-14 15:12 (спустя 16 мин.)

slava_kry писал(а):
[Профиль]  [ЛС] 
 
Тема закрыта
Loading...
Error