Архив: Создание электронных книг из сканов: как получить DjVu или PDF из бумажной книги? [2160930]

Страницы :   Пред.  1, 2, 3 ... 53, 54, 55 ... 96, 97, 98  След.
Тема закрыта
 

SI{AY

Стаж: 16 лет 11 месяцев

Сообщений: 1318

SI{AY · 18-Сен-13 11:17 (11 лет 5 месяцев назад)

нет, не только от программы, а и от того как сделан пдф (существует слишком много вариантов его внуьренностей). вообще в целом кривой формат) векторные бывает еще попробуй рахбери, если использовалась какая нибужь старая версия шрифта, то при разборе на картинки модель оказаться что степени уплыли, или интешралы съехали.. и т.п.
с этим форматом проблем всегда много было.
[Профиль]  [ЛС] 

Shassukkum

Стаж: 15 лет 11 месяцев

Сообщений: 1179


Shassukkum · 18-Сен-13 18:38 (спустя 7 часов)

ascorb писал(а):
60915059<...>
Если я правильно понял то собственно осталось:
DjVu Small - кодируем текст.
ABBYY FineReader - создание из обработанных TIFF сканов книги в формате DjVu с OCR-слоем.
DjvuOCR - извлечение из неё OCR-слоя и добавление в Djvu (без OCR-слоя)
Маленькое уточнение.
"... с помощью программы fr11DTLcrutch извлекаете текстовый слой и вставляете его в конечный djvu, при этом программа поудаляет лишние разрывы слов которые делает файнридер и которые мешают поиску".
Цитата:
HandyOutliner for DjVu-PD - создание оглавления. (Для Гиков)
Я использую PDF & DjVu Bookmarker.
Цитата:
А есть какая нибудь софтина которая бы позволяла и кодить в DJVU? и внедрять OCR (то есть объединяла бы DjVu Small и DjvuOCR)?
[Профиль]  [ЛС] 

ascorb

Стаж: 15 лет 11 месяцев

Сообщений: 9


ascorb · 18-Сен-13 18:55 (спустя 16 мин.)

Shassukkum писал(а):
60922340Маленькое уточнение.
"... с помощью программы fr11DTLcrutch извлекаете текстовый слой и вставляете его в конечный djvu, при этом программа поудаляет лишние разрывы слов которые делает файнридер и которые мешают поиску".
яндекс и gogle немножко озадачены.
где найти чудо софт?
[Профиль]  [ЛС] 

Shassukkum

Стаж: 15 лет 11 месяцев

Сообщений: 1179


Shassukkum · 18-Сен-13 19:07 (спустя 12 мин.)

ascorb писал(а):
60922551яндекс и gogle немножко озадачены.
где найти чудо софт?
Простите, не корректно выразился. Посмотрите в этой теме "Видеоуроки" → "Снятие "паразитного" фона со скана с помощью Фотошопа и последующая его оцифровка в программе ABBYY FineReader v.11.0.110.122 (by Shassukkum)". Верное название программы - — FR11 DjVu Text Layer Crutch v0.21
[Профиль]  [ЛС] 

Alex111234

Стаж: 15 лет 1 месяц

Сообщений: 44


Alex111234 · 22-Сен-13 13:44 (спустя 3 дня)

Почему у меня кромсатор цветные картинки (в смысле выбранные как картинки зоны) делает черно-белыми? Я даже в Files поставил Color Original.
[Профиль]  [ЛС] 

GPU3

Стаж: 14 лет 5 месяцев

Сообщений: 2948

GPU3 · 25-Сен-13 19:09 (спустя 3 дня)

Подскажите, пожалуйста, программу, которая "резала" бы 2-страничный разворот отсканированной книги на две отдельных страницы, или убирала бы чёрную полосу по центру.
[Профиль]  [ЛС] 

Shassukkum

Стаж: 15 лет 11 месяцев

Сообщений: 1179


Shassukkum · 25-Сен-13 19:28 (спустя 19 мин.)

GPU3 писал(а):
61017237Подскажите, пожалуйста, программу, которая "резала" бы 2-страничный разворот отсканированной книги на две отдельных страницы, или убирала бы чёрную полосу по центру.
Есть такая программа, называется Scan Tailor Featured.
Более подробно и со ссылками на софт → https://rutr.life/forum/viewtopic.php?t=4383540 ("под спойлером: Видеоуроки")
скрытый текст
Спасибо что откликнулись
[Профиль]  [ЛС] 

DjVu-Master

Стаж: 15 лет 1 месяц

Сообщений: 6137

DjVu-Master · 25-Сен-13 22:33 (спустя 3 часа, ред. 25-Сен-13 22:33)

GPU3 писал(а):
61017237Подскажите, пожалуйста, программу, которая "резала" бы 2-страничный разворот отсканированной книги на две отдельных страницы, или убирала бы чёрную полосу по центру.
2. Обработка сырых сканов -> 2. Разрезка страниц - почитайте
Shassukkum привет!
[Профиль]  [ЛС] 

Shassukkum

Стаж: 15 лет 11 месяцев

Сообщений: 1179


Shassukkum · 25-Сен-13 23:48 (спустя 1 час 15 мин.)

Привет.
[Профиль]  [ЛС] 

ukrainiandude

Стаж: 12 лет 9 месяцев

Сообщений: 126


ukrainiandude · 06-Окт-13 05:53 (спустя 10 дней)

Надо отсканировать книгу . В наличии Лазерное МФУ Samsung CLX-3185 и Adobe acrobat . Могу ли я сразу создать ПДФ книгу в разрешени 300 . И не пострадает ли качество .
[Профиль]  [ЛС] 

zlobny_sow

Стаж: 15 лет 9 месяцев

Сообщений: 212

zlobny_sow · 06-Окт-13 11:31 (спустя 5 часов, ред. 06-Окт-13 11:31)

ukrainiandude
Создать пдф сразу со сканера вы можете, но качество будет ниже среднего.
Вы лучше сначала отсканируйте, а потом обработайте.
Пошагово можно поучиться и попробовать здесь: https://rutr.life/forum/viewtopic.php?t=4383540
[Профиль]  [ЛС] 

danilamaster245

Стаж: 13 лет 3 месяца

Сообщений: 88

danilamaster245 · 12-Окт-13 12:10 (спустя 6 дней)

Fsaber писал(а):
60909249Извините, на пролистывание\прочитывание 56 страниц меня не хватило =\, так что, возможно, повторюсь с вопросом. Насколько я поняла, топик относится к варианту, когда книга на руках. Все было бы классно, если бы так и было (у меня достаточно большой опыт в обработке и доводке сканов), но ко мне попал вот этот ужас-ужас: https://rutr.life/forum/viewtopic.php?t=1478218. Книги хорошие, но в каком виде... Причем ВСЕ. Искать чтобы купить возможности нет иначе отсканировала бы с 0. Я ничего не имею против того, кто это сканировал, достаточно большая работа проделана, но уж лучше бы не распознавали...
Попыталась править ЭТО в акробате, даже шрифты нужные нашла. Опыта у меня нет, чайник-чайником. Может где-то что-то не понимаю (хотя ковырялась и так и этак), но дело не пошло дальше второго значимого листа ((( Текст, который не распознался, вставлен кусками картинки. И ладно бы это фон был, перепечатаешь, удалишь и все. Так ведь там куски в виде картинок. Их не удалить, текст не дает, типа они ниже слоем, но и смена порядка слоев не помогает. Предпечатная подготовка объектов, которую везде советуют, тоже не помогла. Так что при любых попытках редактировать/удалять получается текстовая лапша. В интернете максимум, что нашла, тоже только процесс, когда файлом с 0 занимаешься сам... Ничего не получается.
Плюнула, перегнала в rtf, решила, что и без красивостей прожить можно. Легче не стало =\
Может сможете что-то подсказать? На все 15 книг меня 100% не хватит, а одну может и осилила бы...
А если бы кто-то, у кого сие издание есть просто посканил бы его, было бы вобще счастье...
Я согласен работа проделана большая, но если бы сканировали(FR11) в OCR с оттенками серого, то такого бы не было.
Такое плохое распознавание текста получается только в ч/б варианте сканирования именно таких книжек.
Вот пример сканирования и распознавания.
https://rutr.life/forum/viewtopic.php?t=4554854
Я даже не проверяю орфографию, главное хороший сканер (у меня EPSON CX7300, да и другие модели хорошего качества сканирования).
На такую 1 книжку приблизительно час времени с корректировкой цвета. Если есть вопросы пишите в ЛС.
[Профиль]  [ЛС] 

karl_karlsson

Стаж: 18 лет 6 месяцев

Сообщений: 377

karl_karlsson · 12-Окт-13 16:31 (спустя 4 часа)

danilamaster245
EPSON CX7300 - сканер там CIS.
Это означает ни цвет, ни цветовое разрешение, ни глубина резкости не бывают хорошего качества.
Для хорошего качества требуется CCD сканер.
[Профиль]  [ЛС] 

danilamaster245

Стаж: 13 лет 3 месяца

Сообщений: 88

danilamaster245 · 13-Окт-13 14:10 (спустя 21 час, ред. 13-Окт-13 14:10)

karl_karlsson писал(а):
61246384danilamaster245
EPSON CX7300 - сканер там CIS.
Это означает ни цвет, ни цветовое разрешение, ни глубина резкости не бывают хорошего качества.
Для хорошего качества требуется CCD сканер.
Возможно я потом попробую сканер ССD, но попробовав серию Epson CX7300,CX8300,CX9300F даже попробовал сканер TX700W.
Скажу всё зависит от качества сборки, даже модель CX7300 за 2008г. хуже - тормозит чем 2009г. Модели 2009года надежнее, может там комплектующие лучше.
Сравнивал по скорости сканирования модель с датчиком CCD Epson Perfection V330 Photo одинакова, а вот модель TX700W похоже быстрее.
Ссылка для сравнения
http://skanworld.ru/kakoj-vybrat-skaner-ccd-ili-cis.html
[Профиль]  [ЛС] 

Loexa

Стаж: 15 лет 3 месяца

Сообщений: 566

Loexa · 13-Окт-13 14:28 (спустя 18 мин.)

danilamaster245
Там по вашей ссылке даже страницы не разрезаны, а разворотами даны. Ну, я так понял, это косяк не ваш, а обработчика.
[Профиль]  [ЛС] 

danilamaster245

Стаж: 13 лет 3 месяца

Сообщений: 88

danilamaster245 · 13-Окт-13 17:54 (спустя 3 часа)

Loexa писал(а):
61259619danilamaster245
Там по вашей ссылке даже страницы не разрезаны, а разворотами даны. Ну, я так понял, это косяк не ваш, а обработчика.
Это сделано специально мной. Разработчик FR11 не виноват. Объясню FR11 при сканировании, убрана галочка разделять страницы.
Формат брошюры меньше А4, поэтому чтобы не обрезать, осветлять, каждую страницу - 64,а это время - я обрезал только 32.
При большом объеме сканирования очень важно время, вы можете свободно их разделить сами в FR11, он даже сам разделяет при открытии ,если галочка установлена.
Если вы будете обрезать страницы маленького формата картинки на них могут расплыться это проблема FR11 он увеличивает изображения.
[Профиль]  [ЛС] 

Loexa

Стаж: 15 лет 3 месяца

Сообщений: 566

Loexa · 13-Окт-13 18:02 (спустя 8 мин.)

danilamaster245
Понятно:(
Вам есть, куда совершенствоваться.
[Профиль]  [ЛС] 

danilamaster245

Стаж: 13 лет 3 месяца

Сообщений: 88

danilamaster245 · 13-Окт-13 18:13 (спустя 11 мин.)

Loexa писал(а):
61262824danilamaster245
Понятно:(
Вам есть, куда совершенствоваться.
Я сканирую всё в 300dpi и цветное и ч/б, на HP4100 приходилось 400dpi выставлять не тянул.
Где-то бывает плохо прижму то в центре пару букв выпадет, главное мне нравится проверять не надо, как было FR10.
[Профиль]  [ЛС] 

Loexa

Стаж: 15 лет 3 месяца

Сообщений: 566

Loexa · 13-Окт-13 19:01 (спустя 48 мин., ред. 13-Окт-13 19:01)

danilamaster245
Ну почитайте хотя бы первое сообщение этой ветки и https://rutr.life/forum/viewtopic.php?t=4383540
Вот краткая схема:
ScanTailor - выравниваем страницы и ваще...
ST Split - отделяем текст от картинок.
DjVu Solo или DjVu Small - кодируем текст.
CuneiDjVu - распознавание текста.
Графический редактор с пакетной обработкой - удалить с картинок типографский растр.
DjVu Imager - вклеиваем картинки.
PS. Уже раз десять эту схему запостил в разных местах.
[Профиль]  [ЛС] 

xseed

Стаж: 17 лет 4 месяца

Сообщений: 135

xseed · 13-Окт-13 20:11 (спустя 1 час 9 мин.)

Насчет пункта 2.3. Обработки:
Рекомендую всем попробовать также плагин для PhotoShop Reprint Master от Евгения Трефилова. Реально помогает убрать мусор при чистке ч/б сканов! По крайней мере лучше чем всякие Despecl'ы в ScanKromsator и Scan Tailor. Компенсацию наклона и разделение на страницы можно замутить через какой-нибудь Action. Вкупе с Reprint Master получается довольно серьезный конкурент указанным программам, т.к. в PS все фильтры можно досконально настроить.
скрытый текст
_ttp://forum.rudtp.ru/threads/pomogite-pochistit-skan.56839/
[Профиль]  [ЛС] 

danilamaster245

Стаж: 13 лет 3 месяца

Сообщений: 88

danilamaster245 · 13-Окт-13 20:41 (спустя 29 мин., ред. 13-Окт-13 20:41)

Loexa писал(а):
61263786danilamaster245
Ну почитайте хотя бы первое сообщение этой ветки и https://rutr.life/forum/viewtopic.php?t=4383540
Вот краткая схема:
ScanTailor - выравниваем страницы и ваще...
ST Split - отделяем текст от картинок.
DjVu Solo или DjVu Small - кодируем текст.
CuneiDjVu - распознавание текста.
Графический редактор с пакетной обработкой - удалить с картинок типографский растр.
DjVu Imager - вклеиваем картинки.
PS. Уже раз десять эту схему запостил в разных местах.
Я не против вашей схемы, может когда будет время попробую, просто мне нравится PDF и скорость.
Объем файлов практически сравнялся в FR11, DjVu = PDF
У вас 6 программ у меня 1 программа. Мне достаточно такого качества, тем более объемы большие - 200 журналов лежит в коробках.
[Профиль]  [ЛС] 

Loexa

Стаж: 15 лет 3 месяца

Сообщений: 566

Loexa · 13-Окт-13 20:57 (спустя 15 мин.)

danilamaster245 писал(а):
61265415просто мне нравится PDF и скорость.
Я тоже не против PDF, но никак к нему не приноровлюсь.
Через Scan Tailor хотя бы прогоните - будет много лучше, я вас уверяю. А времени займёт не много. Там достаточно хороший автомат.
[Профиль]  [ЛС] 

danilamaster245

Стаж: 13 лет 3 месяца

Сообщений: 88

danilamaster245 · 13-Окт-13 21:21 (спустя 24 мин., ред. 13-Окт-13 21:58)

Loexa писал(а):
61265755
danilamaster245 писал(а):
61265415просто мне нравится PDF и скорость.
Я тоже не против PDF, но никак к нему не приноровлюсь.
Через Scan Tailor хотя бы прогоните - будет много лучше, я вас уверяю. А времени займёт не много. Там достаточно хороший автомат.
Попробую спасибо!
Я думаю у вас не получается из-за сканера, подобрав режимы для своего сканера FR11 можно делать быстро.
[Профиль]  [ЛС] 

Loexa

Стаж: 15 лет 3 месяца

Сообщений: 566

Loexa · 13-Окт-13 21:46 (спустя 24 мин.)

Текст - хорошо, а картинки убитые. Но для газеты сойдёт.
У меня не из-за сканера. Распознаётся нормально, но в других программах открывается непредсказуемо.
[Профиль]  [ЛС] 

danilamaster245

Стаж: 13 лет 3 месяца

Сообщений: 88

danilamaster245 · 13-Окт-13 21:51 (спустя 4 мин.)

Loexa писал(а):
61266594Текст - хорошо, а картинки убитые. Но для газеты сойдёт.
У меня не из-за сканера. Распознаётся нормально, но в других программах открывается непредсказуемо.
Согласен.
[Профиль]  [ЛС] 

karl_karlsson

Стаж: 18 лет 6 месяцев

Сообщений: 377

karl_karlsson · 14-Окт-13 13:24 (спустя 15 часов)

danilamaster245
Схема хотя бы вот такая:
1. ScanTailor
2. ST Split
3. DjVu Small
4. DjVu Imager
Работа делается только внутри ScanTailor, внутри другие только раз кнопка нажимается.
Раз потраченное время на усвоение технологии уплачивается дальше - результаты будут лучше, работа будет идти быстрее.
Руководства сюда к сожалению - много слов мало пользы.
[Профиль]  [ЛС] 

danilamaster245

Стаж: 13 лет 3 месяца

Сообщений: 88

danilamaster245 · 14-Окт-13 17:51 (спустя 4 часа, ред. 14-Окт-13 22:19)

karl_karlsson писал(а):
61272923danilamaster245
Схема хотя бы вот такая:
1. ScanTailor
2. ST Split
3. DjVu Small
4. DjVu Imager
Работа делается только внутри ScanTailor, внутри другие только раз кнопка нажимается.
Раз потраченное время на усвоение технологии уплачивается дальше - результаты будут лучше, работа будет идти быстрее.
Руководства сюда к сожалению - много слов мало пользы.
Попробую и ваш вариант - спасибо.
Спасибо вам, прочитав начало ветки понял, что сам виноват.
Не использовал все кнопки в редакторе.
Начал рыться в FineReader11 и нашел практически всё.
Пока не столкнешься с плохим своим сканом не поймёшь.
Спасибо ещё раз, будет время расскажу как теперь я делаю.
[Профиль]  [ЛС] 

Loexa

Стаж: 15 лет 3 месяца

Сообщений: 566

Loexa · 15-Окт-13 01:22 (спустя 7 часов)

danilamaster245 писал(а):
61275990Пока не столкнешься с плохим своим сканом не поймёшь.
"И опыт, сын ошибок трудных..."
Собственные набитые шишки - лучший учитель.
Вы к схемкам-то присмотритесь. Не от балды ж рисовали, сами шишки набивали, и продолжаем набивать. Могу обосновать каждый пункт - зачем он.
[Профиль]  [ЛС] 

Shassukkum

Стаж: 15 лет 11 месяцев

Сообщений: 1179


Shassukkum · 15-Окт-13 07:33 (спустя 6 часов)

Loexa писал(а):
61281708Вы к схемкам-то присмотритесь. Не от балды ж рисовали, сами шишки набивали, и продолжаем набивать. Могу обосновать каждый пункт - зачем он.
Я-тут, давеча, пытался сагитировать несколько человек, в эту или соседнюю темы, по обработке. Ни-фи-га, как гнали полуфабрикат, так гонят. Один не знает что такое бинаризация и зачем она вообще нужна, словно прошлый век на дворе и метод разделённых сканов - тайна за семью печатями, другой, всё бы хорошо, только размеры страниц не совпадают, тот случай когда режут почти к самым буквам и длинна-ширина разная выходит. Написал ему в личку, не то что бы замечание сделал, просто предложил поучаствовать в наших разговорах - безтолку.
Вот что я думаю. Какие уроки не предлагай, (я даже по скайпу готов консультировать, в режиме онлайн такскать), всё равно ничего не выйдет, если личной заинтересованности нет.
[Профиль]  [ЛС] 

grizlik1969

Стаж: 15 лет 8 месяцев

Сообщений: 20

grizlik1969 · 17-Окт-13 16:06 (спустя 2 дня 8 часов)

Небольшое замечание по Scan Tailor, да и по кромсатору - обе пригодны только для книг с ограниченным количеством картинок. Кода пришлось обрабатывать сканы иллюстрированных журналов (естественно в цвете и на различном цветовом фоне) стало понятно - не то. (Оговорюсь - нужно было перевести в PDF несколько журналов в натуральном виде. Задача стояла отсканировать, обрезать лишнее и выровнять страницы). Загрузил сканы в Scan Tailor и до кнопки "ВЫВОД" все было отлично хоть и немного муторно с расстановкой линий обрезки (зато компенсация наклона отработала прекрасно) и вот после нажатия "ВЫВОД" эта чудо-программа красивые странички сделала черно-белыми с разноцветными пятнами на месте иллюстраций. Выставлял и смешанный режим и зоны рисунков отмечал - все бесполезно, выглядит отвратительно.
Я в общем к чему, программу не хаю работает прилично, но было бы отлично если бы разработчик предусмотрел опцию вывода промежуточного результата (после выравнивания и обрезки).
В общем 200 страниц пришлось резать и ровнять руками в PhotoScape (кстати очень удобно поворачивать ползунком на произвольный угол)
[Профиль]  [ЛС] 
 
Тема закрыта
Loading...
Error