Регистрация · Вход Забыли имя или пароль?

Архив: Создание электронных книг из сканов: как получить DjVu или PDF из бумажной книги? [2160930]

Страницы : Пред. 1, 2, 3 ... 12, 13, 14 ... 96, 97, 98 След.


monday2000 Стаж: 16 лет 3 месяца Сообщений: 93	monday2000 · 24-Май-11 08:20 (14 лет 9 месяцев назад, ред. 24-Май-11 08:20) [Цитировать] yuree Цитата: Видимо имеется ввиду это. Спасибо. Это то, что я называю "битовая разрядность" или "режим цветности" (конкретно, это количество бит на 1 пиксель изображения). Вот статья про разрядность, исходя из которой я и использовал термин "битовая разрядность". Наверное, действительно, термин "глубина цвета" точнее, чем термин "битовая разрядность". Раньше (несколько лет назад) в Википедии таких терминов не было, поэтому и приходилось выдумывать свои термины. Кстати, для лучшего понимания, что значит "количество бит на 1 пиксель изображения" любителям книгосканирования неплохо ещё и быть знакомым с понятием двоичное исчисление. Человеку, далёкому от программирования, это понятие, как правило, совершенно неизвестно. Понимая суть двоичного исчисления, становится совершенно понятным, как это может быть, что 1 бит обеспечивает 2 разных числа, а 8 бит обеспечивают 256 разных чисел (и наоборот, не зная двоичного исчисления, всё это кажется тёмным лесом).
[Профиль] [ЛС]
Shassukkum Стаж: 16 лет 11 месяцев Сообщений: 1178	Shassukkum · 24-Май-11 12:35 (спустя 4 часа) [Цитировать] monday2000 писал(а): yuree Цитата: Видимо имеется ввиду это. Спасибо. Пожалуйста. monday2000 писал(а): Наверное, действительно, термин "глубина цвета" точнее, чем термин "битовая разрядность". Раньше (несколько лет назад) в Википедии таких терминов не было, поэтому и приходилось выдумывать свои термины. Смотря где точнее Мне, как заядлому 2D редактору ближе "глубина цвета" а ежели разговор о "железе" идёт, как в случае со сканером, то наверно всё-таки — "битовая разрядность". ИМХО конечно monday2000 писал(а): Кстати, для лучшего понимания, что значит "количество бит на 1 пиксель изображения" любителям книгосканирования неплохо ещё и быть знакомым с понятием двоичное исчисление. А оно им надо? monday2000 писал(а): Человеку, далёкому от программирования, это понятие, как правило, совершенно неизвестно. Понимая суть двоичного исчисления, становится совершенно понятным, как это может быть, что 1 бит обеспечивает 2 разных числа, а 8 бит обеспечивают 256 разных чисел (и наоборот, не зная двоичного исчисления, всё это кажется тёмным лесом). Точно.
[Профиль] [ЛС]
petoleg Стаж: 18 лет 10 месяцев Сообщений: 735	petoleg · 24-Май-11 15:35 (спустя 3 часа, ред. 24-Май-11 15:35) [Цитировать] yuree писал(а): monday2000 писал(а): petoleg Цитата: Кроме недостаточной глубины цвета, ужасающая скорость сканирования "в цвете" Что значит "глубина цвета"? Видимо имеется ввиду это. Ошибся я однако, имелась в виду глубина резкости, из-за того, что CanoScan - CIS-типа.
[Профиль] [ЛС]
Mixa_the_Krokodil Стаж: 16 лет 6 месяцев Сообщений: 53	Mixa_the_Krokodil · 25-Май-11 18:25 (спустя 1 день 2 часа, ред. 25-Май-11 18:25) [Цитировать] Подскажите, есть какой-то способ качественно распознавать формулы, напр. в химической литературе (и не только химич.)? Отсканил методичку. Там, разумеется, дикая смесь латиницы, кириллицы и нижних индексов со всякими спецсимволами. FR выдает нечто страшное и невообразимое (притом, что скан предварительно обработал в кромсаторе и символы выглядят очень четко, если распознаванием не пользоваться). Вроде бы проблема явная и старая, но поиск мне ничего не дал, полчаса маюсь сижу.
[Профиль] [ЛС]
57an Стаж: 17 лет 4 месяца Сообщений: 191	57an · 25-Май-11 18:50 (спустя 25 мин.) [Цитировать] Вставлять формулу как картинку - не вариант?
[Профиль] [ЛС]
Mixa_the_Krokodil Стаж: 16 лет 6 месяцев Сообщений: 53	Mixa_the_Krokodil · 25-Май-11 20:03 (спустя 1 час 12 мин.) [Цитировать] ну, если это единственный вариант - то в случае подобных методичек надо пол-книги в картинках делать, или лучше вообще делать файл не распознавая. Видимо так и сделаю))
[Профиль] [ЛС]
pas_dingo Стаж: 16 лет 4 месяца Сообщений: 9	pas_dingo · 18-Июн-11 21:20 (спустя 24 дня) [Цитировать] Присматриваюсь к сканеру для оцифровки книг. Подскажите, есть ли в домашнем/SOHO сегменте альтернатива уже устаревшему PlusTek OpticBook 3600?
[Профиль] [ЛС]
j-pet Стаж: 18 лет 5 месяцев Сообщений: 171	j-pet · 19-Июн-11 21:53 (спустя 1 день, ред. 19-Июн-11 21:53) [Цитировать] pas_dingo писал(а): Подскажите, есть ли в домашнем/SOHO сегменте альтернатива уже устаревшему PlusTek OpticBook 3600? Как вариант: Avision FB2280E. Кто-нибудь может что-либо рассказать о нём (в частности интересует скорость сканирования в 600dpi B&W)?
[Профиль] [ЛС]
Old peer Стаж: 19 лет 4 месяца Сообщений: 236	Old peer · 26-Июн-11 22:29 (спустя 7 дней) [Цитировать] j-pet писал(а): Как вариант: Avision FB2280E. Совсем не могу найти его в московской рознице... На паре русскоязычных сайтов есть характеристики, но и только.
[Профиль] [ЛС]
57an Стаж: 17 лет 4 месяца Сообщений: 191	57an · 27-Июн-11 05:17 (спустя 6 часов) [Цитировать] msk-ix yandex-market не то?
[Профиль] [ЛС]
Old peer Стаж: 19 лет 4 месяца Сообщений: 236	Old peer · 27-Июн-11 10:22 (спустя 5 часов, ред. 27-Июн-11 17:32) [Цитировать] 57an Благодарю, но Вы нашли модель FB2080E, а речь про FB2280E, это старшая модель в линейке A4 сканеров. Возможно, разница между ними и небольшая, но я искал конкретно последнюю.
[Профиль] [ЛС]
DjVu-Master Стаж: 16 лет 2 месяца Сообщений: 6116	DjVu-Master · 27-Июн-11 20:29 (спустя 10 часов) [Цитировать] monday2000 yuree писал(а): Теперь технология: Спасибо! Получилось!
[Профиль] [ЛС]
mitridatand Стаж: 16 лет 3 месяца Сообщений: 35	mitridatand · 30-Июн-11 21:40 (спустя 3 дня, ред. 03-Июл-11 10:32) [Цитировать] Подскажите пожалуйста кто может, я застрял на том месте где нужно сохранять в FineReader'а и не понимаю в каком формате для последующей работы в DjVu-кодер. (Шаг 3. Распознавание и первичная вычитка)? Спасибо. Ау люди есть кто живой?
[Профиль] [ЛС]
monday2000 Стаж: 16 лет 3 месяца Сообщений: 93	monday2000 · 04-Июл-11 08:24 (спустя 3 дня, ред. 05-Июл-11 08:03) [Цитировать] mitridatand Цитата: где нужно сохранять в FineReader'а и не понимаю в каком формате для последующей работы в DjVu-кодер. Сохранить нужно в "пакет". В Файнридере 8: Файл - Сохранить пакет как... "Пакет" - это папка, наполненная файлами .frf и .tif. Она (папка-пакет) имеет свою особенную иконку - пачка фиолетовых листов. А программе DjVuOCR нужно указать этот пакет - как один из входных параметров. В общем-то, программе DjVuOCR нужны файлы файнридера с расширением .frf - которые присутствуют в "пакете". Именно из .frf DjVuOCR вытаскивает OCR-информацию и вставляет её в DjVu.
[Профиль] [ЛС]
WarlockRus9k Стаж: 17 лет 5 месяцев Сообщений: 2226	WarlockRus9k · 11-Июл-11 09:39 (спустя 7 дней) [Цитировать] Народ, такой вопрос появился - вот есть сканер А4, есть журнальный разворот, который, ясен пень А3 и никаким образом сканить не получается его целиком. есть ли какая приблуда, которая может сканить журнальные развороты, затем программно собирая их например из 2-3 А4? знаю, что САПР Компас умеет обратную процедуру - печать форматок А3+ на несколько А4(с последующей склейкой вторых в первую)
[Профиль] [ЛС]
Shassukkum Стаж: 16 лет 11 месяцев Сообщений: 1178	Shassukkum · 11-Июл-11 12:35 (спустя 2 часа 55 мин.) [Цитировать] Rammkid писал(а): Народ, такой вопрос появился - вот есть сканер А4, есть журнальный разворот, который, ясен пень А3 и никаким образом сканить не получается его целиком. есть ли какая приблуда, которая может сканить журнальные развороты, затем программно собирая их например из 2-3 А4? <...> По разному можно, хоть в ручном режиме, хоть в автомате. И программ достаточно, хоть для сборки панорамы хоть заточенной под сканеры. В вашем случае — разница не велика. Попробуйте для начала хотя-бы Autostitch. У меня версия 2.184 давно на компе лежит, я её пользуюсь. Она автоматом из нескольких сканов один собирает. Не найдёте, могу на файлообменник кинуть.
[Профиль] [ЛС]
WarlockRus9k Стаж: 17 лет 5 месяцев Сообщений: 2226	WarlockRus9k · 11-Июл-11 14:18 (спустя 1 час 42 мин.) [Цитировать] yuree, Autostitch плюется что типа надо выбрать 2 или больше картинки..... хотя я выбираю как раз 2 страницы)
[Профиль] [ЛС]
Shassukkum Стаж: 16 лет 11 месяцев Сообщений: 1178	Shassukkum · 11-Июл-11 18:38 (спустя 4 часа) [Цитировать] Rammkid писал(а): yuree, Autostitch плюется что типа надо выбрать 2 или больше картинки..... хотя я выбираю как раз 2 страницы) Во-блин, даже не знаю что Вам ответить. Я-вот в ФШ-е склеиваю, панорамки делаю. А на руборде, PanaVue Image Assembler нахваливают. Хоть я его и не ставил. Впрочем, щас её поюзаю
[Профиль] [ЛС]
Shassukkum Стаж: 16 лет 11 месяцев Сообщений: 1178	Shassukkum · 02-Авг-11 22:59 (спустя 22 дня) [Цитировать] Не так давно мне подвернулась работа по сведению к одной раздаче серии публикаций одного журнала. Одна из ранних раздач, которую я использовал для работы, была в виде набора цветных сканов в PDF'овском файле. Правда сканы там были с довольно большим рингингом что немного огорчало. Ну-да это не беда. Мне пришла в голову мысль перевести их в DjVu с OCR слоем. Но при этом убрав "паразитный" жёлтый фон ("печать была выполнена на довольно плохой бумаге газетного типа + время :-)") не затронув сам текст, сделать чётче буквы, убрать рингинг, деспеклировать и в конечном счёте уменьшить размер скана не затронув его качество. И естественно — автоматизировать этот процесс. То что я здесь напишу, можно рассматривать и в виде урока, хоть для меня это, скорее, общий контур. Кое какие пункты можно сделать по другому, а какие и вообще, не применять в работе. Итак. 1. Переводим PDF в набор сканов: Можно это сделать несколькими программами но я выбрал PDF-XChange Viewer (Спасибо mondey2000 за статью ). Если угодно, можно полученные файлы переименовать "групповым переименовыванием" в Тотеле. 2. Берём любой файл из полученных и копируем его в какое-то другое место на винте. Над ним мы сначала и будем издеваться. 3. Запускаем Adobe Photosop. У меня 12-я версия (т. е. "CS5 Extendet"). Открываем в нём наш файл, над которым мы будем издеваться. 4. Можете сразу не создавать экшэн а немного "помучить" картинку, я-же напишу сразу пример создания самого действия ("экшэна"). 5. Итак, открываем наш скан. скрытый текст Увеличиваем, для удобства, навигатором нашу картинку (Вкладка Navigator). 6. Пишем "Действие". Жмём на вкладку Action. Если её нет то (Alt+F9) или во вкладке Windows. Жмём на кнопку, внизу, Create New Action, загнутый листочек, левее от значка "мусорка". 7. Выскакивает окно New Action. скрытый текст Жмём кнопку Record (запись). Началась запись действия. 8. Для удобства я перехожу во вкладку Layers (Слои). 9. Создаём новый слой, жмём на кнопку в самом низу Create New Layers (Создать новый слой), он в виде загнутого листочка. В итоге у нас получилось вот что скрытый текст 10. Берём, слева, пипетку (Eyedropper Tool) и делаем забор цвета, скрытый текст Потом берём "ведро" (Paint Bucket Tool) и заливаем наш новый слой, тем цветом что мы выбрали пипеткой. скрытый текст 11. Меняем режим наложения с Normal на Divide, скрытый текст больше ничего не трогаем. 12. Сливаем оба слоя в один. Клацаем правой клавишей в верхнем слое и выбираем Flatten Image. 13. Выравниваем наш скан по свету. В шапке Image —> Ajustments —> или жмём Levels (Ctrl+L). Там передвигаем левый ползунок вправо таким образом скрытый текст и жмём ОК 14. "Паразитный шум" по периферии скана можно убрать таким образом: Image —> Ajustments —> Replace Color (Замена цвета). 15. Пипеткой жмём на жёлтом цвете и выставляем значение Lightness в самый край, +100, (т. е. белый). Ползунком Fuzziness задаём область применения, я оставил где-то значение 63, см. выше. Жмём ОК 16. Можете повторить эту операцию с заменой цвета и для других оттенков. Хотя, не забывайте, в СканТейлоре поля обрезаются, так что особо не усердствуйте. — Далее идёт операция по убиранию шума и улучшению качества букв, их чёткости. Если у вас с этим всё нормально то нижнее два пункта можно проигнорировать и не писать в экшен. — 17. Я ранее говорил, что скан был неважного качества, с jpeg'овским шумом вокруг букв. Из этой ситуации я вышел таким образом. Уменьшил разрешение с помощью Image —> Image Size или (Alt+Ctrl+I) Процент, вместо 100 поставил 50 и нажал ОК скрытый текст 18. С помощью плагина Blow Up от Alien Skin, увеличил размер вдвое. скрытый текст Жмём ОК Для этих целей можно применить и другие похожие продвинутые плагины, например Genuine Fractals, т. е. те кто работают с фрактальным преобразованием, можно применить и плагины со сплайновыми "заморочками". Эксперементируйте! 19. Жмём Filter —> Sharpen —> Unsharp Mask (Примерные значения 105 и 18). ОК. 20. Закрываем наш файл, жмём на крестике справа. —> Yes. —> ОК 21. Переходим во вкладку Action и жмём на кнопке "Остановить" в виде квадратика. 22. Запускаем наш экшэн. 23. File —> Automate —> Batch. Кнопками Choose выбираем начальную папку, где мы складировали из PDF'ки наши сканы и конечную папку, где будут наши обработанные сканы находиться. Жмём ОК. скрытый текст 24. Всё! P.S. Некоторые процессы можно и опустить, например с разрешением скана, некоторые дополнить, например применив для умного размытия фильтр Smart Blur из шапки Filter, что-бы убрать фактуру бумаги. Или ещё какой шумодав. Или поменять процессы местами, применив Levels до заливки и сведения слоёв, например. А если ещё больше "пострадать" то сканы с фото надо обрабатывать отдельно. Именно так я и поступал в случае с многострадальным журналом. Удачи в эксперементировании!
[Профиль] [ЛС]
Loexa Стаж: 16 лет 4 месяца Сообщений: 565	Loexa · 09-Авг-11 17:28 (спустя 6 дней, ред. 10-Ноя-11 02:41) [Цитировать] Rammkid Я клею половинки с помощью Microsoft ICE (Image Composite Editor). Можно скачать с оф.сайта. monday2000, хорошо бы добавить эту программу в список на вашем сайте. Бесплатная, практически однокнопочная, быстрая. Основной недостаток - фирменная туповатость:) Т.е. если не справился автомат, то в ручной режим лучше и не лезть - убожество. Но автомат неплох - справляется в 90-95% случаев. А то, с чем не справился, можно склеить в RasterStitch. Программа более продвинутая, но и более медленная. Зато вручную клеит вообще с точностью до пикселя.
[Профиль] [ЛС]
ZNZETZOO Стаж: 14 лет 7 месяцев Сообщений: 1	ZNZETZOO · 09-Авг-11 19:57 (спустя 2 часа 29 мин.) [Цитировать] спасибо, кэп! буду теперь понемножку выкладывать свою библиотеку:)
[Профиль] [ЛС]
pas_dingo Стаж: 16 лет 4 месяца Сообщений: 9	pas_dingo · 10-Авг-11 19:21 (спустя 23 часа, ред. 10-Авг-11 19:21) [Цитировать] Кто-нибудь имел дело со сканером opticbook-3800? Качество сканирования картинок у него такое же поганое, как и у 3600 или нормальное? Можно его брать в качестве универсального сканера?
[Профиль] [ЛС]
dubki Стаж: 19 лет 2 месяца Сообщений: 555	dubki · 22-Авг-11 14:19 (спустя 11 дней) [Цитировать] pas_dingo Тоже собираюсь прикупить, но меня больше интересуют как он сканирует цветные картинки в журналах.
[Профиль] [ЛС]
Антонъ Стаж: 18 лет 11 месяцев Сообщений: 1285	Антонъ · 20-Сен-11 20:52 (спустя 29 дней) [Цитировать] Спасибо автору темы за статью! Я недавно приобрел сканер, начинаю потихоньку сканировать и делать электронные книги. Несколько вопросов и замечаний от меня В руководстве отлично разъяснена работа со ScanKromsator, но упущен один важный нюанс - при выделении рисунка в зону нужно сразу определить тип рисунка (двойной клик мышкой на выделенный рисунок, в окошке выбор цветности - черно-белый, серый или цветной). Иначе по умолчанию СканКромсатор делает все рисунки серыми. Информация по конвертированию в DJVU неактуальна - ссылки на программы не работают, самих программ давно уж нет (типа той же Document Express). Как я выяснил (и уже делаю), сейчас отлично конвертирует в DJVU программа DJVU SMALL. Ее можно скачать на сайте уважаемого monday2000. Многие книги нет смысла распознавать - сложное оформление, неподдерживаемый язык, элементарная нехватка времени на само распознавание, так вот, как конвертировать книгу в PDF, если я не собираюсь ее распознавать? В руководстве на это ответа нет. Неужели через виртуальные принтеры, типа того же pdfFactory Pro? А так руководство очень ценно и полезно, помогает сразу делать качественные сканы, а то так бы я и сканил в JPEG да печатал в PDF
[Профиль] [ЛС]
Wizardzim Стаж: 18 лет 8 месяцев Сообщений: 850	Wizardzim · 20-Сен-11 21:21 (спустя 29 мин.) [Цитировать] Антонъ ну у меня сразу прогой что со сканером (Canon) идет можно делать.
[Профиль] [ЛС]
Антонъ Стаж: 18 лет 11 месяцев Сообщений: 1285	Антонъ · 20-Сен-11 21:25 (спустя 3 мин.) [Цитировать] Wizardzim У меня тоже есть поддержка PDF на сканере (Epson V33), нужно будет попробовать. Просто тогда книга будет слишком сырая, с необрезанными полями, грязным фоном. А вот после Кромсатора как конвертировать в PDF? Интересуюсь для развития, так DJVU намного больше нравится
[Профиль] [ЛС]
Wizardzim Стаж: 18 лет 8 месяцев Сообщений: 850	Wizardzim · 20-Сен-11 21:49 (спустя 24 мин., ред. 20-Сен-11 21:49) [Цитировать] Антонъ хм, может ACDSee ? Ну хотя лично я бы делал через FineReader. В опциях ставите тест под изображением - и отлично. И выглядит как просто картинка. И в тех местах, где распозналось - можно текст копировать. ну т.е. вот пример http://narod.ru/disk/25800784001/Untitled.FR10.pdf.html специально не обрабатывал текст - выглядит как картинка, но текст можно копировать, например в блокнот Ну а вот например то, что получилось из стандартных изображений в Win 7 в ACDSee. http://narod.yandex.ru/disk/25801239001/PDFImages.pdf
[Профиль] [ЛС]
Антонъ Стаж: 18 лет 11 месяцев Сообщений: 1285	Антонъ · 21-Сен-11 00:16 (спустя 2 часа 27 мин.) [Цитировать] Wizardzim Надо попробовать в FineReader по вашему совету Спасибо!
[Профиль] [ЛС]
monday2000 Стаж: 16 лет 3 месяца Сообщений: 93	monday2000 · 27-Сен-11 10:21 (спустя 6 дней) [Цитировать] Антонъ Цитата: А вот после Кромсатора как конвертировать в PDF? Сам Кромсатор умеет сохранять результат своей работы в PDF. Вот цитата с форума программы: Цитата: Умеет. На вкладке File выбираем PDF. Задаем имя файла. На вкладке PDF устанавливаем параметры сжатия.
[Профиль] [ЛС]
Антонъ Стаж: 18 лет 11 месяцев Сообщений: 1285	Антонъ · 27-Сен-11 22:24 (спустя 12 часов, ред. 28-Сен-11 03:33) [Цитировать] monday2000 Спасибо Вам большое, буду знать и пробовать! Я тут в первый раз распознал и сохранил в PDF книгу в Finereader'е. Результат крайне не понравился - Finereader заменил шрифт книги на стандартный, из-за чего сразу исчез дух книги (теперь я понял, почему книги с OCR выглядят такими бездушными и выхолощенными - уничтожается оригинальный шрифт). Мало того - оказались повреждены и некоторые картинки, в которых Finereader увидел текст. Размер книги (250 страниц с цветными иллюстрациями) вышел 106 Мб - это тоже не порадовало. Попробовал сохранить в том же Finereader'е книгу в DJVU - плюс: есть сразу OCR, правда, построчный; минус: паршивое качество картинок и немалый размер (34 Мб). Попробую встроить OCR в нормальный DJVU, как написано в первом посте. Если не получится - обойдусь в дальнейшем без распознавания, так оно и быстрее Я правильно понимаю, что если сохранять в Finereader'е в PDF с опцией "Только изображение", книга получится без OCR?
[Профиль] [ЛС]