Архив: Создание электронных книг из сканов: как получить DjVu или PDF из бумажной книги? [2160930]

Страницы :   Пред.  1, 2, 3 ... 12, 13, 14 ... 96, 97, 98  След.
Тема закрыта
 

monday2000

Стаж: 15 лет 9 месяцев

Сообщений: 93


monday2000 · 24-Май-11 08:20 (14 лет 4 месяца назад, ред. 24-Май-11 08:20)

yuree
Цитата:
Видимо имеется ввиду это.
Спасибо. Это то, что я называю "битовая разрядность" или "режим цветности" (конкретно, это количество бит на 1 пиксель изображения). Вот статья про разрядность, исходя из которой я и использовал термин "битовая разрядность".
Наверное, действительно, термин "глубина цвета" точнее, чем термин "битовая разрядность". Раньше (несколько лет назад) в Википедии таких терминов не было, поэтому и приходилось выдумывать свои термины.
Кстати, для лучшего понимания, что значит "количество бит на 1 пиксель изображения" любителям книгосканирования неплохо ещё и быть знакомым с понятием двоичное исчисление.
Человеку, далёкому от программирования, это понятие, как правило, совершенно неизвестно. Понимая суть двоичного исчисления, становится совершенно понятным, как это может быть, что 1 бит обеспечивает 2 разных числа, а 8 бит обеспечивают 256 разных чисел (и наоборот, не зная двоичного исчисления, всё это кажется тёмным лесом).
[Профиль]  [ЛС] 

Shassukkum

Стаж: 16 лет 6 месяцев

Сообщений: 1178


Shassukkum · 24-Май-11 12:35 (спустя 4 часа)

monday2000 писал(а):
yuree
Цитата:
Видимо имеется ввиду это.
Спасибо.
Пожалуйста.
monday2000 писал(а):
Наверное, действительно, термин "глубина цвета" точнее, чем термин "битовая разрядность". Раньше (несколько лет назад) в Википедии таких терминов не было, поэтому и приходилось выдумывать свои термины.
Смотря где точнее Мне, как заядлому 2D редактору ближе "глубина цвета" а ежели разговор о "железе" идёт, как в случае со сканером, то наверно всё-таки — "битовая разрядность". ИМХО конечно
monday2000 писал(а):
Кстати, для лучшего понимания, что значит "количество бит на 1 пиксель изображения" любителям книгосканирования неплохо ещё и быть знакомым с понятием двоичное исчисление.
А оно им надо?
monday2000 писал(а):
Человеку, далёкому от программирования, это понятие, как правило, совершенно неизвестно. Понимая суть двоичного исчисления, становится совершенно понятным, как это может быть, что 1 бит обеспечивает 2 разных числа, а 8 бит обеспечивают 256 разных чисел (и наоборот, не зная двоичного исчисления, всё это кажется тёмным лесом).
Точно.
[Профиль]  [ЛС] 

petoleg

Top Seed 02* 80r

Стаж: 18 лет 5 месяцев

Сообщений: 725

petoleg · 24-Май-11 15:35 (спустя 3 часа, ред. 24-Май-11 15:35)

yuree писал(а):
monday2000 писал(а):
petoleg
Цитата:
Кроме недостаточной глубины цвета, ужасающая скорость сканирования "в цвете"
Что значит "глубина цвета"?
Видимо имеется ввиду это.
Ошибся я однако, имелась в виду глубина резкости, из-за того, что CanoScan - CIS-типа.
[Профиль]  [ЛС] 

Mixa_the_Krokodil

Стаж: 16 лет 1 месяц

Сообщений: 52


Mixa_the_Krokodil · 25-Май-11 18:25 (спустя 1 день 2 часа, ред. 25-Май-11 18:25)

Подскажите, есть какой-то способ качественно распознавать формулы, напр. в химической литературе (и не только химич.)? Отсканил методичку. Там, разумеется, дикая смесь латиницы, кириллицы и нижних индексов со всякими спецсимволами. FR выдает нечто страшное и невообразимое (притом, что скан предварительно обработал в кромсаторе и символы выглядят очень четко, если распознаванием не пользоваться).
Вроде бы проблема явная и старая, но поиск мне ничего не дал, полчаса маюсь сижу.
[Профиль]  [ЛС] 

57an

Стаж: 16 лет 10 месяцев

Сообщений: 191


57an · 25-Май-11 18:50 (спустя 25 мин.)

Вставлять формулу как картинку - не вариант?
[Профиль]  [ЛС] 

Mixa_the_Krokodil

Стаж: 16 лет 1 месяц

Сообщений: 52


Mixa_the_Krokodil · 25-Май-11 20:03 (спустя 1 час 12 мин.)

ну, если это единственный вариант - то в случае подобных методичек надо пол-книги в картинках делать, или лучше вообще делать файл не распознавая. Видимо так и сделаю))
[Профиль]  [ЛС] 

pas_dingo

Стаж: 15 лет 11 месяцев

Сообщений: 9


pas_dingo · 18-Июн-11 21:20 (спустя 24 дня)

Присматриваюсь к сканеру для оцифровки книг. Подскажите, есть ли в домашнем/SOHO сегменте альтернатива уже устаревшему PlusTek OpticBook 3600?
[Профиль]  [ЛС] 

j-pet

Стаж: 17 лет 11 месяцев

Сообщений: 171

j-pet · 19-Июн-11 21:53 (спустя 1 день, ред. 19-Июн-11 21:53)

pas_dingo писал(а):
Подскажите, есть ли в домашнем/SOHO сегменте альтернатива уже устаревшему PlusTek OpticBook 3600?
Как вариант: Avision FB2280E. Кто-нибудь может что-либо рассказать о нём (в частности интересует скорость сканирования в 600dpi B&W)?
[Профиль]  [ЛС] 

Old peer

Top Bonus 05* 10TB

Стаж: 18 лет 11 месяцев

Сообщений: 229

Old peer · 26-Июн-11 22:29 (спустя 7 дней)

j-pet писал(а):
Как вариант: Avision FB2280E.
Совсем не могу найти его в московской рознице... На паре русскоязычных сайтов есть характеристики, но и только.
[Профиль]  [ЛС] 

57an

Стаж: 16 лет 10 месяцев

Сообщений: 191


57an · 27-Июн-11 05:17 (спустя 6 часов)

msk-ix
yandex-market не то?
[Профиль]  [ЛС] 

Old peer

Top Bonus 05* 10TB

Стаж: 18 лет 11 месяцев

Сообщений: 229

Old peer · 27-Июн-11 10:22 (спустя 5 часов, ред. 27-Июн-11 17:32)

57an
Благодарю, но Вы нашли модель FB2080E, а речь про FB2280E, это старшая модель в линейке A4 сканеров. Возможно, разница между ними и небольшая, но я искал конкретно последнюю.
[Профиль]  [ЛС] 

DjVu-Master

Стаж: 15 лет 9 месяцев

Сообщений: 6122

DjVu-Master · 27-Июн-11 20:29 (спустя 10 часов)

monday2000
yuree писал(а):
Теперь технология:
Спасибо! Получилось!
[Профиль]  [ЛС] 

mitridatand

Стаж: 15 лет 10 месяцев

Сообщений: 35

mitridatand · 30-Июн-11 21:40 (спустя 3 дня, ред. 03-Июл-11 10:32)

Подскажите пожалуйста кто может, я застрял на том месте
где нужно сохранять в FineReader'а и не понимаю в каком формате для последующей работы в DjVu-кодер. (Шаг 3. Распознавание и первичная вычитка)?
Спасибо.
Ау люди есть кто живой?
[Профиль]  [ЛС] 

monday2000

Стаж: 15 лет 9 месяцев

Сообщений: 93


monday2000 · 04-Июл-11 08:24 (спустя 3 дня, ред. 05-Июл-11 08:03)

mitridatand
Цитата:
где нужно сохранять в FineReader'а и не понимаю в каком формате для последующей работы в DjVu-кодер.
Сохранить нужно в "пакет". В Файнридере 8: Файл - Сохранить пакет как...
"Пакет" - это папка, наполненная файлами *.frf и *.tif. Она (папка-пакет) имеет свою особенную иконку - пачка фиолетовых листов.
А программе DjVuOCR нужно указать этот пакет - как один из входных параметров.
В общем-то, программе DjVuOCR нужны файлы файнридера с расширением *.frf - которые присутствуют в "пакете". Именно из *.frf DjVuOCR вытаскивает OCR-информацию и вставляет её в DjVu.
[Профиль]  [ЛС] 

WarlockRus9k

Top Bonus 03* 1TB

Стаж: 17 лет

Сообщений: 2198

WarlockRus9k · 11-Июл-11 09:39 (спустя 7 дней)

Народ, такой вопрос появился - вот есть сканер А4, есть журнальный разворот, который, ясен пень А3 и никаким образом сканить не получается его целиком. есть ли какая приблуда, которая может сканить журнальные развороты, затем программно собирая их например из 2-3 А4?
знаю, что САПР Компас умеет обратную процедуру - печать форматок А3+ на несколько А4(с последующей склейкой вторых в первую)
[Профиль]  [ЛС] 

Shassukkum

Стаж: 16 лет 6 месяцев

Сообщений: 1178


Shassukkum · 11-Июл-11 12:35 (спустя 2 часа 55 мин.)

Rammkid писал(а):
Народ, такой вопрос появился - вот есть сканер А4, есть журнальный разворот, который, ясен пень А3 и никаким образом сканить не получается его целиком. есть ли какая приблуда, которая может сканить журнальные развороты, затем программно собирая их например из 2-3 А4?
<...>
По разному можно, хоть в ручном режиме, хоть в автомате. И программ достаточно, хоть для сборки панорамы хоть заточенной под сканеры. В вашем случае — разница не велика. Попробуйте для начала хотя-бы Autostitch. У меня версия 2.184 давно на компе лежит, я её пользуюсь. Она автоматом из нескольких сканов один собирает.
Не найдёте, могу на файлообменник кинуть.
[Профиль]  [ЛС] 

WarlockRus9k

Top Bonus 03* 1TB

Стаж: 17 лет

Сообщений: 2198

WarlockRus9k · 11-Июл-11 14:18 (спустя 1 час 42 мин.)

yuree, Autostitch плюется что типа надо выбрать 2 или больше картинки..... хотя я выбираю как раз 2 страницы)
[Профиль]  [ЛС] 

Shassukkum

Стаж: 16 лет 6 месяцев

Сообщений: 1178


Shassukkum · 11-Июл-11 18:38 (спустя 4 часа)

Rammkid писал(а):
yuree, Autostitch плюется что типа надо выбрать 2 или больше картинки..... хотя я выбираю как раз 2 страницы)
Во-блин, даже не знаю что Вам ответить.
Я-вот в ФШ-е склеиваю, панорамки делаю. А на руборде, PanaVue Image Assembler нахваливают. Хоть я его и не ставил.
Впрочем, щас её поюзаю
[Профиль]  [ЛС] 

Shassukkum

Стаж: 16 лет 6 месяцев

Сообщений: 1178


Shassukkum · 02-Авг-11 22:59 (спустя 22 дня)

Не так давно мне подвернулась работа по сведению к одной раздаче серии публикаций одного журнала. Одна из ранних раздач, которую я использовал для работы, была в виде набора цветных сканов в PDF'овском файле. Правда сканы там были с довольно большим рингингом что немного огорчало. Ну-да это не беда.
Мне пришла в голову мысль перевести их в DjVu с OCR слоем. Но при этом убрав "паразитный" жёлтый фон ("печать была выполнена на довольно плохой бумаге газетного типа + время :-)") не затронув сам текст, сделать чётче буквы, убрать рингинг, деспеклировать и в конечном счёте уменьшить размер скана не затронув его качество. И естественно — автоматизировать этот процесс.
То что я здесь напишу, можно рассматривать и в виде урока, хоть для меня это, скорее, общий контур. Кое какие пункты можно сделать по другому, а какие и вообще, не применять в работе. Итак.
1. Переводим PDF в набор сканов:
Можно это сделать несколькими программами но я выбрал PDF-XChange Viewer (Спасибо mondey2000 за статью ). Если угодно, можно полученные файлы переименовать "групповым переименовыванием" в Тотеле.
2. Берём любой файл из полученных и копируем его в какое-то другое место на винте. Над ним мы сначала и будем издеваться.
3. Запускаем Adobe Photosop. У меня 12-я версия (т. е. "CS5 Extendet"). Открываем в нём наш файл, над которым мы будем издеваться.
4. Можете сразу не создавать экшэн а немного "помучить" картинку, я-же напишу сразу пример создания самого действия ("экшэна").
5. Итак, открываем наш скан.
скрытый текст
Увеличиваем, для удобства, навигатором нашу картинку (Вкладка Navigator).
6. Пишем "Действие". Жмём на вкладку Action. Если её нет то (Alt+F9) или во вкладке Windows. Жмём на кнопку, внизу, Create New Action, загнутый листочек, левее от значка "мусорка".
7. Выскакивает окно New Action.
скрытый текст
Жмём кнопку Record (запись). Началась запись действия.
8. Для удобства я перехожу во вкладку Layers (Слои).
9. Создаём новый слой, жмём на кнопку в самом низу Create New Layers (Создать новый слой), он в виде загнутого листочка. В итоге у нас получилось вот что
скрытый текст
10. Берём, слева, пипетку (Eyedropper Tool) и делаем забор цвета,
скрытый текст
Потом берём "ведро" (Paint Bucket Tool) и заливаем наш новый слой, тем цветом что мы выбрали пипеткой.
скрытый текст
11. Меняем режим наложения с Normal на Divide,
скрытый текст
больше ничего не трогаем.
12. Сливаем оба слоя в один. Клацаем правой клавишей в верхнем слое и выбираем Flatten Image.
13. Выравниваем наш скан по свету. В шапке Image —> Ajustments —> или жмём Levels (Ctrl+L). Там передвигаем левый ползунок вправо таким образом
скрытый текст
и жмём ОК
14. "Паразитный шум" по периферии скана можно убрать таким образом: Image —> Ajustments —> Replace Color (Замена цвета).
15. Пипеткой жмём на жёлтом цвете и выставляем значение Lightness в самый край, +100, (т. е. белый). Ползунком Fuzziness задаём область применения, я оставил где-то значение 63, см. выше. Жмём ОК
16. Можете повторить эту операцию с заменой цвета и для других оттенков. Хотя, не забывайте, в СканТейлоре поля обрезаются, так что особо не усердствуйте.
— Далее идёт операция по убиранию шума и улучшению качества букв, их чёткости. Если у вас с этим всё нормально то нижнее два пункта можно проигнорировать и не писать в экшен. —
17. Я ранее говорил, что скан был неважного качества, с jpeg'овским шумом вокруг букв. Из этой ситуации я вышел таким образом. Уменьшил разрешение с помощью Image —> Image Size или (Alt+Ctrl+I) Процент, вместо 100 поставил 50 и нажал ОК
скрытый текст
18. С помощью плагина Blow Up от Alien Skin, увеличил размер вдвое.
скрытый текст
Жмём ОК
Для этих целей можно применить и другие похожие продвинутые плагины, например Genuine Fractals, т. е. те кто работают с фрактальным преобразованием, можно применить и плагины со сплайновыми "заморочками". Эксперементируйте!
19. Жмём Filter —> Sharpen —> Unsharp Mask (Примерные значения 105 и 18). ОК.
20. Закрываем наш файл, жмём на крестике справа. —> Yes. —> ОК
21. Переходим во вкладку Action и жмём на кнопке "Остановить" в виде квадратика.
22. Запускаем наш экшэн.
23. File —> Automate —> Batch. Кнопками Choose выбираем начальную папку, где мы складировали из PDF'ки наши сканы и конечную папку, где будут наши обработанные сканы находиться. Жмём ОК.
скрытый текст
24. Всё!
P.S. Некоторые процессы можно и опустить, например с разрешением скана, некоторые дополнить, например применив для умного размытия фильтр Smart Blur из шапки Filter, что-бы убрать фактуру бумаги. Или ещё какой шумодав. Или поменять процессы местами, применив Levels до заливки и сведения слоёв, например.
А если ещё больше "пострадать" то сканы с фото надо обрабатывать отдельно.
Именно так я и поступал в случае с многострадальным журналом.
Удачи в эксперементировании!
[Профиль]  [ЛС] 

Loexa

Стаж: 15 лет 10 месяцев

Сообщений: 561

Loexa · 09-Авг-11 17:28 (спустя 6 дней, ред. 10-Ноя-11 02:41)

Rammkid
Я клею половинки с помощью Microsoft ICE (Image Composite Editor). Можно скачать с оф.сайта. monday2000, хорошо бы добавить эту программу в список на вашем сайте. Бесплатная, практически однокнопочная, быстрая. Основной недостаток - фирменная туповатость:) Т.е. если не справился автомат, то в ручной режим лучше и не лезть - убожество. Но автомат неплох - справляется в 90-95% случаев. А то, с чем не справился, можно склеить в RasterStitch. Программа более продвинутая, но и более медленная. Зато вручную клеит вообще с точностью до пикселя.
[Профиль]  [ЛС] 

ZNZETZOO

Стаж: 14 лет 2 месяца

Сообщений: 1


ZNZETZOO · 09-Авг-11 19:57 (спустя 2 часа 29 мин.)

спасибо, кэп! буду теперь понемножку выкладывать свою библиотеку:)
[Профиль]  [ЛС] 

pas_dingo

Стаж: 15 лет 11 месяцев

Сообщений: 9


pas_dingo · 10-Авг-11 19:21 (спустя 23 часа, ред. 10-Авг-11 19:21)

Кто-нибудь имел дело со сканером opticbook-3800? Качество сканирования картинок у него такое же поганое, как и у 3600 или нормальное? Можно его брать в качестве универсального сканера?
[Профиль]  [ЛС] 

dubki

Стаж: 18 лет 9 месяцев

Сообщений: 546


dubki · 22-Авг-11 14:19 (спустя 11 дней)

pas_dingo
Тоже собираюсь прикупить, но меня больше интересуют как он сканирует цветные картинки в журналах.
[Профиль]  [ЛС] 

Антонъ

Стаж: 18 лет 5 месяцев

Сообщений: 1281


Антонъ · 20-Сен-11 20:52 (спустя 29 дней)

Спасибо автору темы за статью! Я недавно приобрел сканер, начинаю потихоньку сканировать и делать электронные книги.
Несколько вопросов и замечаний от меня
В руководстве отлично разъяснена работа со ScanKromsator, но упущен один важный нюанс - при выделении рисунка в зону нужно сразу определить тип рисунка (двойной клик мышкой на выделенный рисунок, в окошке выбор цветности - черно-белый, серый или цветной). Иначе по умолчанию СканКромсатор делает все рисунки серыми.
Информация по конвертированию в DJVU неактуальна - ссылки на программы не работают, самих программ давно уж нет (типа той же Document Express). Как я выяснил (и уже делаю), сейчас отлично конвертирует в DJVU программа DJVU SMALL. Ее можно скачать на сайте уважаемого monday2000.
Многие книги нет смысла распознавать - сложное оформление, неподдерживаемый язык, элементарная нехватка времени на само распознавание, так вот, как конвертировать книгу в PDF, если я не собираюсь ее распознавать? В руководстве на это ответа нет. Неужели через виртуальные принтеры, типа того же pdfFactory Pro?
А так руководство очень ценно и полезно, помогает сразу делать качественные сканы, а то так бы я и сканил в JPEG да печатал в PDF
[Профиль]  [ЛС] 

Wizardzim

Стаж: 18 лет 3 месяца

Сообщений: 951

Wizardzim · 20-Сен-11 21:21 (спустя 29 мин.)

Антонъ
ну у меня сразу прогой что со сканером (Canon) идет можно делать.
[Профиль]  [ЛС] 

Антонъ

Стаж: 18 лет 5 месяцев

Сообщений: 1281


Антонъ · 20-Сен-11 21:25 (спустя 3 мин.)

Wizardzim
У меня тоже есть поддержка PDF на сканере (Epson V33), нужно будет попробовать. Просто тогда книга будет слишком сырая, с необрезанными полями, грязным фоном. А вот после Кромсатора как конвертировать в PDF? Интересуюсь для развития, так DJVU намного больше нравится
[Профиль]  [ЛС] 

Wizardzim

Стаж: 18 лет 3 месяца

Сообщений: 951

Wizardzim · 20-Сен-11 21:49 (спустя 24 мин., ред. 20-Сен-11 21:49)

Антонъ
хм, может ACDSee ?
Ну хотя лично я бы делал через FineReader. В опциях ставите тест под изображением - и отлично.
И выглядит как просто картинка. И в тех местах, где распозналось - можно текст копировать.
ну т.е. вот пример
http://narod.ru/disk/25800784001/Untitled.FR10.pdf.html
специально не обрабатывал текст - выглядит как картинка, но текст можно копировать, например в блокнот
Ну а вот например то, что получилось из стандартных изображений в Win 7 в ACDSee.
http://narod.yandex.ru/disk/25801239001/PDFImages.pdf
[Профиль]  [ЛС] 

Антонъ

Стаж: 18 лет 5 месяцев

Сообщений: 1281


Антонъ · 21-Сен-11 00:16 (спустя 2 часа 27 мин.)

Wizardzim
Надо попробовать в FineReader по вашему совету Спасибо!
[Профиль]  [ЛС] 

monday2000

Стаж: 15 лет 9 месяцев

Сообщений: 93


monday2000 · 27-Сен-11 10:21 (спустя 6 дней)

Антонъ
Цитата:
А вот после Кромсатора как конвертировать в PDF?
Сам Кромсатор умеет сохранять результат своей работы в PDF. Вот цитата с форума программы:
Цитата:
Умеет. На вкладке File выбираем PDF. Задаем имя файла. На вкладке PDF устанавливаем параметры сжатия.
[Профиль]  [ЛС] 

Антонъ

Стаж: 18 лет 5 месяцев

Сообщений: 1281


Антонъ · 27-Сен-11 22:24 (спустя 12 часов, ред. 28-Сен-11 03:33)

monday2000
Спасибо Вам большое, буду знать и пробовать!
Я тут в первый раз распознал и сохранил в PDF книгу в Finereader'е. Результат крайне не понравился - Finereader заменил шрифт книги на стандартный, из-за чего сразу исчез дух книги (теперь я понял, почему книги с OCR выглядят такими бездушными и выхолощенными - уничтожается оригинальный шрифт).
Мало того - оказались повреждены и некоторые картинки, в которых Finereader увидел текст.
Размер книги (250 страниц с цветными иллюстрациями) вышел 106 Мб - это тоже не порадовало.
Попробовал сохранить в том же Finereader'е книгу в DJVU - плюс: есть сразу OCR, правда, построчный; минус: паршивое качество картинок и немалый размер (34 Мб).
Попробую встроить OCR в нормальный DJVU, как написано в первом посте. Если не получится - обойдусь в дальнейшем без распознавания, так оно и быстрее
Я правильно понимаю, что если сохранять в Finereader'е в PDF с опцией "Только изображение", книга получится без OCR?
[Профиль]  [ЛС] 
 
Тема закрыта
Loading...
Error