|
SI{AY
 Стаж: 16 лет 11 месяцев Сообщений: 1318
|
SI{AY ·
18-Сен-13 11:17
(11 лет 5 месяцев назад)
нет, не только от программы, а и от того как сделан пдф (существует слишком много вариантов его внуьренностей). вообще в целом кривой формат) векторные бывает еще попробуй рахбери, если использовалась какая нибужь старая версия шрифта, то при разборе на картинки модель оказаться что степени уплыли, или интешралы съехали.. и т.п.
с этим форматом проблем всегда много было.
|
|
Shassukkum
Стаж: 15 лет 11 месяцев Сообщений: 1179
|
Shassukkum ·
18-Сен-13 18:38
(спустя 7 часов)
ascorb писал(а):
60915059<...>
Если я правильно понял то собственно осталось:
DjVu Small - кодируем текст.
ABBYY FineReader - создание из обработанных TIFF сканов книги в формате DjVu с OCR-слоем.
DjvuOCR - извлечение из неё OCR-слоя и добавление в Djvu (без OCR-слоя)
Маленькое уточнение.
"... с помощью программы fr11DTLcrutch извлекаете текстовый слой и вставляете его в конечный djvu, при этом программа поудаляет лишние разрывы слов которые делает файнридер и которые мешают поиску".
Цитата:
HandyOutliner for DjVu-PD - создание оглавления. (Для Гиков)
Я использую PDF & DjVu Bookmarker.
Цитата:
А есть какая нибудь софтина которая бы позволяла и кодить в DJVU? и внедрять OCR (то есть объединяла бы DjVu Small и DjvuOCR)?
|
|
ascorb
Стаж: 15 лет 11 месяцев Сообщений: 9
|
ascorb ·
18-Сен-13 18:55
(спустя 16 мин.)
Shassukkum писал(а):
60922340Маленькое уточнение.
"... с помощью программы fr11DTLcrutch извлекаете текстовый слой и вставляете его в конечный djvu, при этом программа поудаляет лишние разрывы слов которые делает файнридер и которые мешают поиску".
яндекс и gogle немножко озадачены.
где найти чудо софт?
|
|
Shassukkum
Стаж: 15 лет 11 месяцев Сообщений: 1179
|
Shassukkum ·
18-Сен-13 19:07
(спустя 12 мин.)
ascorb писал(а):
60922551яндекс и gogle немножко озадачены.
где найти чудо софт?
Простите, не корректно выразился. Посмотрите в этой теме "Видеоуроки" → "Снятие "паразитного" фона со скана с помощью Фотошопа и последующая его оцифровка в программе ABBYY FineReader v.11.0.110.122 (by Shassukkum)". Верное название программы - — FR11 DjVu Text Layer Crutch v0.21
|
|
Alex111234
Стаж: 15 лет 1 месяц Сообщений: 44
|
Alex111234 ·
22-Сен-13 13:44
(спустя 3 дня)
Почему у меня кромсатор цветные картинки (в смысле выбранные как картинки зоны) делает черно-белыми? Я даже в Files поставил Color Original.
|
|
GPU3
 Стаж: 14 лет 5 месяцев Сообщений: 2948
|
GPU3 ·
25-Сен-13 19:09
(спустя 3 дня)
Подскажите, пожалуйста, программу, которая "резала" бы 2-страничный разворот отсканированной книги на две отдельных страницы, или убирала бы чёрную полосу по центру.
|
|
Shassukkum
Стаж: 15 лет 11 месяцев Сообщений: 1179
|
Shassukkum ·
25-Сен-13 19:28
(спустя 19 мин.)
GPU3 писал(а):
61017237Подскажите, пожалуйста, программу, которая "резала" бы 2-страничный разворот отсканированной книги на две отдельных страницы, или убирала бы чёрную полосу по центру.
Есть такая программа, называется Scan Tailor Featured.
Более подробно и со ссылками на софт → https://rutr.life/forum/viewtopic.php?t=4383540 ("под спойлером: Видеоуроки")
скрытый текст
Спасибо что откликнулись
|
|
DjVu-Master
 Стаж: 15 лет 1 месяц Сообщений: 6137
|
DjVu-Master ·
25-Сен-13 22:33
(спустя 3 часа, ред. 25-Сен-13 22:33)
GPU3 писал(а):
61017237Подскажите, пожалуйста, программу, которая "резала" бы 2-страничный разворот отсканированной книги на две отдельных страницы, или убирала бы чёрную полосу по центру.
2. Обработка сырых сканов -> 2. Разрезка страниц - почитайте  Shassukkum привет!
|
|
Shassukkum
Стаж: 15 лет 11 месяцев Сообщений: 1179
|
Shassukkum ·
25-Сен-13 23:48
(спустя 1 час 15 мин.)
|
|
ukrainiandude
Стаж: 12 лет 9 месяцев Сообщений: 126
|
ukrainiandude ·
06-Окт-13 05:53
(спустя 10 дней)
Надо отсканировать книгу . В наличии Лазерное МФУ Samsung CLX-3185 и Adobe acrobat . Могу ли я сразу создать ПДФ книгу в разрешени 300 . И не пострадает ли качество .
|
|
zlobny_sow
 Стаж: 15 лет 9 месяцев Сообщений: 212
|
zlobny_sow ·
06-Окт-13 11:31
(спустя 5 часов, ред. 06-Окт-13 11:31)
ukrainiandude
Создать пдф сразу со сканера вы можете, но качество будет ниже среднего.
Вы лучше сначала отсканируйте, а потом обработайте.
Пошагово можно поучиться и попробовать здесь: https://rutr.life/forum/viewtopic.php?t=4383540
|
|
danilamaster245
 Стаж: 13 лет 3 месяца Сообщений: 88
|
danilamaster245 ·
12-Окт-13 12:10
(спустя 6 дней)
Fsaber писал(а):
60909249Извините, на пролистывание\прочитывание 56 страниц меня не хватило =\, так что, возможно, повторюсь с вопросом. Насколько я поняла, топик относится к варианту, когда книга на руках. Все было бы классно, если бы так и было (у меня достаточно большой опыт в обработке и доводке сканов), но ко мне попал вот этот ужас-ужас: https://rutr.life/forum/viewtopic.php?t=1478218. Книги хорошие, но в каком виде... Причем ВСЕ. Искать чтобы купить возможности нет иначе отсканировала бы с 0. Я ничего не имею против того, кто это сканировал, достаточно большая работа проделана, но уж лучше бы не распознавали...
Попыталась править ЭТО в акробате, даже шрифты нужные нашла. Опыта у меня нет, чайник-чайником. Может где-то что-то не понимаю (хотя ковырялась и так и этак), но дело не пошло дальше второго значимого листа ((( Текст, который не распознался, вставлен кусками картинки. И ладно бы это фон был, перепечатаешь, удалишь и все. Так ведь там куски в виде картинок. Их не удалить, текст не дает, типа они ниже слоем, но и смена порядка слоев не помогает. Предпечатная подготовка объектов, которую везде советуют, тоже не помогла. Так что при любых попытках редактировать/удалять получается текстовая лапша. В интернете максимум, что нашла, тоже только процесс, когда файлом с 0 занимаешься сам... Ничего не получается.
Плюнула, перегнала в rtf, решила, что и без красивостей прожить можно. Легче не стало =\
Может сможете что-то подсказать? На все 15 книг меня 100% не хватит, а одну может и осилила бы...
А если бы кто-то, у кого сие издание есть просто посканил бы его, было бы вобще счастье...
Я согласен работа проделана большая, но если бы сканировали(FR11) в OCR с оттенками серого, то такого бы не было.
Такое плохое распознавание текста получается только в ч/б варианте сканирования именно таких книжек.
Вот пример сканирования и распознавания.
https://rutr.life/forum/viewtopic.php?t=4554854
Я даже не проверяю орфографию, главное хороший сканер (у меня EPSON CX7300, да и другие модели хорошего качества сканирования).
На такую 1 книжку приблизительно час времени с корректировкой цвета. Если есть вопросы пишите в ЛС.
|
|
karl_karlsson
 Стаж: 18 лет 6 месяцев Сообщений: 377
|
karl_karlsson ·
12-Окт-13 16:31
(спустя 4 часа)
danilamaster245
EPSON CX7300 - сканер там CIS.
Это означает ни цвет, ни цветовое разрешение, ни глубина резкости не бывают хорошего качества.
Для хорошего качества требуется CCD сканер.
|
|
danilamaster245
 Стаж: 13 лет 3 месяца Сообщений: 88
|
danilamaster245 ·
13-Окт-13 14:10
(спустя 21 час, ред. 13-Окт-13 14:10)
karl_karlsson писал(а):
61246384danilamaster245
EPSON CX7300 - сканер там CIS.
Это означает ни цвет, ни цветовое разрешение, ни глубина резкости не бывают хорошего качества.
Для хорошего качества требуется CCD сканер.
Возможно я потом попробую сканер ССD, но попробовав серию Epson CX7300,CX8300,CX9300F даже попробовал сканер TX700W.
Скажу всё зависит от качества сборки, даже модель CX7300 за 2008г. хуже - тормозит чем 2009г. Модели 2009года надежнее, может там комплектующие лучше.
Сравнивал по скорости сканирования модель с датчиком CCD Epson Perfection V330 Photo одинакова, а вот модель TX700W похоже быстрее.
Ссылка для сравнения
http://skanworld.ru/kakoj-vybrat-skaner-ccd-ili-cis.html
|
|
Loexa
 Стаж: 15 лет 3 месяца Сообщений: 566
|
Loexa ·
13-Окт-13 14:28
(спустя 18 мин.)
danilamaster245
Там по вашей ссылке даже страницы не разрезаны, а разворотами даны. Ну, я так понял, это косяк не ваш, а обработчика.
|
|
danilamaster245
 Стаж: 13 лет 3 месяца Сообщений: 88
|
danilamaster245 ·
13-Окт-13 17:54
(спустя 3 часа)
Loexa писал(а):
61259619danilamaster245
Там по вашей ссылке даже страницы не разрезаны, а разворотами даны. Ну, я так понял, это косяк не ваш, а обработчика.
Это сделано специально мной. Разработчик FR11 не виноват. Объясню FR11 при сканировании, убрана галочка разделять страницы.
Формат брошюры меньше А4, поэтому чтобы не обрезать, осветлять, каждую страницу - 64,а это время - я обрезал только 32.
При большом объеме сканирования очень важно время, вы можете свободно их разделить сами в FR11, он даже сам разделяет при открытии ,если галочка установлена. 
Если вы будете обрезать страницы маленького формата картинки на них могут расплыться это проблема FR11 он увеличивает изображения.
|
|
Loexa
 Стаж: 15 лет 3 месяца Сообщений: 566
|
Loexa ·
13-Окт-13 18:02
(спустя 8 мин.)
danilamaster245
Понятно:(
Вам есть, куда совершенствоваться.
|
|
danilamaster245
 Стаж: 13 лет 3 месяца Сообщений: 88
|
danilamaster245 ·
13-Окт-13 18:13
(спустя 11 мин.)
Loexa писал(а):
61262824danilamaster245
Понятно:(
Вам есть, куда совершенствоваться.
Я сканирую всё в 300dpi и цветное и ч/б, на HP4100 приходилось 400dpi выставлять не тянул. 
Где-то бывает плохо прижму то в центре пару букв выпадет, главное мне нравится проверять не надо, как было FR10.
|
|
Loexa
 Стаж: 15 лет 3 месяца Сообщений: 566
|
Loexa ·
13-Окт-13 19:01
(спустя 48 мин., ред. 13-Окт-13 19:01)
danilamaster245
Ну почитайте хотя бы первое сообщение этой ветки и https://rutr.life/forum/viewtopic.php?t=4383540
Вот краткая схема:
ScanTailor - выравниваем страницы и ваще...
ST Split - отделяем текст от картинок.
DjVu Solo или DjVu Small - кодируем текст.
CuneiDjVu - распознавание текста.
Графический редактор с пакетной обработкой - удалить с картинок типографский растр.
DjVu Imager - вклеиваем картинки.
PS. Уже раз десять эту схему запостил в разных местах.
|
|
xseed
 Стаж: 17 лет 4 месяца Сообщений: 135
|
xseed ·
13-Окт-13 20:11
(спустя 1 час 9 мин.)
Насчет пункта 2.3. Обработки:
Рекомендую всем попробовать также плагин для PhotoShop Reprint Master от Евгения Трефилова. Реально помогает убрать мусор при чистке ч/б сканов! По крайней мере лучше чем всякие Despecl'ы в ScanKromsator и Scan Tailor. Компенсацию наклона и разделение на страницы можно замутить через какой-нибудь Action. Вкупе с Reprint Master получается довольно серьезный конкурент указанным программам, т.к. в PS все фильтры можно досконально настроить.
скрытый текст
_ttp://forum.rudtp.ru/threads/pomogite-pochistit-skan.56839/
|
|
danilamaster245
 Стаж: 13 лет 3 месяца Сообщений: 88
|
danilamaster245 ·
13-Окт-13 20:41
(спустя 29 мин., ред. 13-Окт-13 20:41)
Loexa писал(а):
61263786danilamaster245
Ну почитайте хотя бы первое сообщение этой ветки и https://rutr.life/forum/viewtopic.php?t=4383540
Вот краткая схема:
ScanTailor - выравниваем страницы и ваще...
ST Split - отделяем текст от картинок.
DjVu Solo или DjVu Small - кодируем текст.
CuneiDjVu - распознавание текста.
Графический редактор с пакетной обработкой - удалить с картинок типографский растр.
DjVu Imager - вклеиваем картинки.
PS. Уже раз десять эту схему запостил в разных местах.
Я не против вашей схемы, может когда будет время попробую, просто мне нравится PDF и скорость.
Объем файлов практически сравнялся в FR11, DjVu = PDF
У вас 6 программ у меня 1 программа.  Мне достаточно такого качества, тем более объемы большие - 200 журналов лежит в коробках.
|
|
Loexa
 Стаж: 15 лет 3 месяца Сообщений: 566
|
Loexa ·
13-Окт-13 20:57
(спустя 15 мин.)
danilamaster245 писал(а):
61265415просто мне нравится PDF и скорость.
Я тоже не против PDF, но никак к нему не приноровлюсь.
Через Scan Tailor хотя бы прогоните - будет много лучше, я вас уверяю. А времени займёт не много. Там достаточно хороший автомат.
|
|
danilamaster245
 Стаж: 13 лет 3 месяца Сообщений: 88
|
danilamaster245 ·
13-Окт-13 21:21
(спустя 24 мин., ред. 13-Окт-13 21:58)
Loexa писал(а):
61265755
danilamaster245 писал(а):
61265415просто мне нравится PDF и скорость.
Я тоже не против PDF, но никак к нему не приноровлюсь.
Через Scan Tailor хотя бы прогоните - будет много лучше, я вас уверяю. А времени займёт не много. Там достаточно хороший автомат.
Попробую спасибо!
Я думаю у вас не получается из-за сканера, подобрав режимы для своего сканера FR11 можно делать быстро.
|
|
Loexa
 Стаж: 15 лет 3 месяца Сообщений: 566
|
Loexa ·
13-Окт-13 21:46
(спустя 24 мин.)
Текст - хорошо, а картинки убитые. Но для газеты сойдёт.
У меня не из-за сканера. Распознаётся нормально, но в других программах открывается непредсказуемо.
|
|
danilamaster245
 Стаж: 13 лет 3 месяца Сообщений: 88
|
danilamaster245 ·
13-Окт-13 21:51
(спустя 4 мин.)
Loexa писал(а):
61266594Текст - хорошо, а картинки убитые. Но для газеты сойдёт.
У меня не из-за сканера. Распознаётся нормально, но в других программах открывается непредсказуемо.
Согласен.
|
|
karl_karlsson
 Стаж: 18 лет 6 месяцев Сообщений: 377
|
karl_karlsson ·
14-Окт-13 13:24
(спустя 15 часов)
danilamaster245
Схема хотя бы вот такая:
1. ScanTailor
2. ST Split
3. DjVu Small
4. DjVu Imager
Работа делается только внутри ScanTailor, внутри другие только раз кнопка нажимается.
Раз потраченное время на усвоение технологии уплачивается дальше - результаты будут лучше, работа будет идти быстрее. Руководства сюда к сожалению - много слов мало пользы.
|
|
danilamaster245
 Стаж: 13 лет 3 месяца Сообщений: 88
|
danilamaster245 ·
14-Окт-13 17:51
(спустя 4 часа, ред. 14-Окт-13 22:19)
karl_karlsson писал(а):
61272923danilamaster245
Схема хотя бы вот такая:
1. ScanTailor
2. ST Split
3. DjVu Small
4. DjVu Imager
Работа делается только внутри ScanTailor, внутри другие только раз кнопка нажимается.
Раз потраченное время на усвоение технологии уплачивается дальше - результаты будут лучше, работа будет идти быстрее. Руководства сюда к сожалению - много слов мало пользы.
Попробую и ваш вариант - спасибо. 
Спасибо вам, прочитав начало ветки понял, что сам виноват.
Не использовал все кнопки в редакторе.
Начал рыться в FineReader11 и нашел практически всё.
Пока не столкнешься с плохим своим сканом не поймёшь.
Спасибо ещё раз, будет время расскажу как теперь я делаю.
|
|
Loexa
 Стаж: 15 лет 3 месяца Сообщений: 566
|
Loexa ·
15-Окт-13 01:22
(спустя 7 часов)
danilamaster245 писал(а):
61275990Пока не столкнешься с плохим своим сканом не поймёшь.
"И опыт, сын ошибок трудных..."
Собственные набитые шишки - лучший учитель.
Вы к схемкам-то присмотритесь. Не от балды ж рисовали, сами шишки набивали, и продолжаем набивать. Могу обосновать каждый пункт - зачем он.
|
|
Shassukkum
Стаж: 15 лет 11 месяцев Сообщений: 1179
|
Shassukkum ·
15-Окт-13 07:33
(спустя 6 часов)
Loexa писал(а):
61281708Вы к схемкам-то присмотритесь. Не от балды ж рисовали, сами шишки набивали, и продолжаем набивать. Могу обосновать каждый пункт - зачем он.
Я-тут, давеча, пытался сагитировать несколько человек, в эту или соседнюю темы, по обработке. Ни-фи-га, как гнали полуфабрикат, так гонят. Один не знает что такое бинаризация и зачем она вообще нужна, словно прошлый век на дворе и метод разделённых сканов - тайна за семью печатями, другой, всё бы хорошо, только размеры страниц не совпадают, тот случай когда режут почти к самым буквам и длинна-ширина разная выходит. Написал ему в личку, не то что бы замечание сделал, просто предложил поучаствовать в наших разговорах - безтолку.
Вот что я думаю. Какие уроки не предлагай, (я даже по скайпу готов консультировать, в режиме онлайн такскать), всё равно ничего не выйдет, если личной заинтересованности нет.
|
|
grizlik1969
 Стаж: 15 лет 8 месяцев Сообщений: 20
|
grizlik1969 ·
17-Окт-13 16:06
(спустя 2 дня 8 часов)
Небольшое замечание по Scan Tailor, да и по кромсатору - обе пригодны только для книг с ограниченным количеством картинок. Кода пришлось обрабатывать сканы иллюстрированных журналов (естественно в цвете и на различном цветовом фоне) стало понятно - не то. (Оговорюсь - нужно было перевести в PDF несколько журналов в натуральном виде. Задача стояла отсканировать, обрезать лишнее и выровнять страницы). Загрузил сканы в Scan Tailor и до кнопки "ВЫВОД" все было отлично хоть и немного муторно с расстановкой линий обрезки (зато компенсация наклона отработала прекрасно) и вот после нажатия "ВЫВОД" эта чудо-программа красивые странички сделала черно-белыми с разноцветными пятнами на месте иллюстраций. Выставлял и смешанный режим и зоны рисунков отмечал - все бесполезно, выглядит отвратительно.
Я в общем к чему, программу не хаю работает прилично, но было бы отлично если бы разработчик предусмотрел опцию вывода промежуточного результата (после выравнивания и обрезки).
В общем 200 страниц пришлось резать и ровнять руками в PhotoScape (кстати очень удобно поворачивать ползунком на произвольный угол)
|
|
|