|
drYY
 Стаж: 18 лет 10 месяцев Сообщений: 347
|
drYY ·
03-Май-14 21:04
(10 лет 9 месяцев назад)
Есть ли ScanKromsator под макось?
|
|
cemehbl4
  Стаж: 15 лет 1 месяц Сообщений: 1352
|
cemehbl4 ·
21-Май-14 23:43
(спустя 18 дней)
Подскажите, что лучше использовать для выравнивания освещённости сканов?
|
|
Loexa
 Стаж: 15 лет 3 месяца Сообщений: 566
|
Loexa ·
21-Май-14 23:54
(спустя 10 мин., ред. 21-Май-14 23:54)
cemehbl4 писал(а):
64005076Подскажите, что лучше использовать для выравнивания освещённости сканов?
Что с освещённостью? Пример можно?
|
|
cemehbl4
  Стаж: 15 лет 1 месяц Сообщений: 1352
|
cemehbl4 ·
22-Май-14 00:50
(спустя 55 мин., ред. 22-Май-14 00:50)
Примерно как здесь, книгу нормально не прижать, т.е. тень с одной стороны корешка, засвет - с другой.
Пробую исправить с помощью Book Restorer, но он меня, если честно задолбал - вылетает постоянно. Или может я велосипед изобретаю? Может всё делается в Scan Tailor, не прибегая к сторонним программам? Подскажите
|
|
Loexa
 Стаж: 15 лет 3 месяца Сообщений: 566
|
Loexa ·
22-Май-14 01:22
(спустя 32 мин., ред. 22-Май-14 01:22)
Вроде как BookRestorer рекомендуют. Не знаю, не пробовал.
Я бы сделал так:
Сначала привёл бы с помощью яркости-контраста, насколько возможно, фон приблизительно к белому, а текст приблизительно к чёрному, без фанатизма. Пакетно. Под виндой мне нравится XnView, а если умеете запускать пакетную обработку в Photoshop, тогда чо я тут рассказываю:)
Потом пихаем в ScanTailor. Пересвет вроде не страшный, а вот черноту загоняем в "автослой".
После вывода снова настраиваете пакетную обработку, чтобы преобразовать тёмные области в ч-б, и вперёд:)
Если что-то не понятно рассказал, то спрашивайте.
|
|
cemehbl4
  Стаж: 15 лет 1 месяц Сообщений: 1352
|
cemehbl4 ·
22-Май-14 01:37
(спустя 14 мин., ред. 17-Июл-15 22:36)
Loexa писал(а):
64005645а вот черноту загоняем в "автослой".
После вывода снова настраиваете пакетную обработку, чтобы преобразовать тёмные области в ч-б, и вперёд:)
Вот это непонятно. Вообще 
Пользуюсь инструкцией с джвусофт.народ. Отсюда же и еще один вопрос, чем делать бинаризацию? Насколь продвинута эта функция в ScanTailor?
P.S. Первая в жизни отсканированная книга, если что 
Перечитав здешние темы, если честно, так и не врубился в порядок действий и необходимый софт.
В моём случае я понимаю так: убираю засветы в Book Restore так как ScanTailor этого не умеет, далее только ScanTailor и больше ничего не понадобится для обработки сканов, дальше FineReader. Правильно?
|
|
Loexa
 Стаж: 15 лет 3 месяца Сообщений: 566
|
Loexa ·
22-Май-14 02:02
(спустя 25 мин., ред. 22-Май-14 02:19)
Что конкретно не понятно? "Автослой"? Это область "картинок" в "смешанном" режиме ST. Черноту загоняем туда.
После вывода из ST будут чистенькие странички с чернотой у корешка. Настройте в PS или ХnView, или что у вас там, уровни под эту черноту, чтобы получились чёрные буквы на белом фоне, и запустите пакетом. Основной текст это не затронет, бо он уже ч-б, а вот чернота уйдёт.
Про Book Restorer не знаю, ни разу не пользовался.
А по программам — вот то, что я всегда рекомендую, и ещё никто не жаловался:)
ScanTailor - выравниваем страницы и ваще...
ST Split - отделяем текст от картинок.
DjVu Solo или DjVu Small - кодируем текст.
CuneiDjVu - распознавание текста.
Графический редактор с пакетной обработкой - удалить с картинок типографский растр.
DjVu Imager - вклеиваем картинки.
Это для начала. Уже будет очень хороший результат, личеры вас прям оближут:)
А как опыта наберётесь, то можно в дупу этот мануал:)
|
|
cemehbl4
  Стаж: 15 лет 1 месяц Сообщений: 1352
|
cemehbl4 ·
22-Май-14 02:19
(спустя 17 мин., ред. 22-Май-14 02:19)
Loexa
Будем разбираться 
А какой софт вы можете порекомендовать, если я хочу получить pdf на выходе?
P.S. Вопрос нуба - что есть такое "типографский растр"?
|
|
Loexa
 Стаж: 15 лет 3 месяца Сообщений: 566
|
Loexa ·
22-Май-14 02:52
(спустя 32 мин.)
cemehbl4 писал(а):
64005898А какой софт вы можете порекомендовать, если я хочу получить pdf на выходе?
С PDF у меня не сложилось. Кажется, после ST там надо в файнридер кидать. Я пробовал, но были проблемы с кириллицей — плюнул. Хотя считаю, что это более перспективный формат, чем djvu.
$Shorox вроде бы делает PDF.
cemehbl4 писал(а):
64005898P.S. Вопрос нуба - что есть такое "типографский растр"?
А приглядитесь к картинкам в книжке. Лучше с лупой. Они состоят из точек. Вот эти точки отвратительно кодируются, что в djvu, что в pdf. Там алгоритм примерно как в jpeg — любит плавные переходы, а не резкие точки. Вот эти точки желательно размылить. Иначе получается огромный файл, да ещё и с артефактами. С "квадратиками".
|
|
DjVu-Master
 Стаж: 15 лет 1 месяц Сообщений: 6137
|
DjVu-Master ·
22-Май-14 09:54
(спустя 7 часов)
cemehbl4 писал(а):
64005898P.S. Вопрос нуба - что есть такое "типографский растр"?
|
|
rioter11
  Стаж: 17 лет 7 месяцев Сообщений: 1654
|
rioter11 ·
25-Май-14 13:07
(спустя 3 дня)
Цитата:
Примерно как здесь, книгу нормально не прижать, т.е. тень с одной стороны корешка, засвет - с другой.
Пробую исправить с помощью Book Restorer, но он меня, если честно задолбал - вылетает постоянно.
В соседней ветке узнал, что Book Restorer вылетает именно русская версия. Скачал английскую - ни одного вылета. Спасибо! Book Restorer лучше СТ выпрямляет строки (искажения от загибов страниц на разворотах). Бинаризацию и СТ неплохо проводит, но в Book Restorer для этого тоньше настройки.
Цитата:
А какой софт вы можете порекомендовать, если я хочу получить pdf на выходе?
если хотите иметь корректный текстовый слой с вычиткой -то надо кидать в ФР,
но если графическая часть получилась хорошо, то можно попробовать и ClearScan ocr от АдобАкробат - сразу и в пдф закодируете и ocr какой-никакой получите.
|
|
cemehbl4
  Стаж: 15 лет 1 месяц Сообщений: 1352
|
cemehbl4 ·
25-Май-14 17:28
(спустя 4 часа, ред. 25-Май-14 17:28)
rioter11 писал(а):
64042908В соседней ветке узнал, что Book Restorer вылетает именно русская версия. Скачал английскую - ни одного вылета. Спасибо! Book Restorer лучше СТ выпрямляет строки (искажения от загибов страниц на разворотах).
У меня вылетает и русская и английская версия. На счёт выпрямления могу сказать со стопроцентной уверенностью - ScanTailor лучше работает, чем BookRestorer, нужно лишь правильно выбрать тип искажения + есть возможность правки вручную. Естественно косяки (в смысле плохого выпрямления строк) есть и там и там - в BookRestorer их больше.
rioter11 писал(а):
64042908ClearScan ocr от АдобАкробат
Спасибо за наводку, будем пробовать. И вопрос: как настроить распознавание в FineReader 11 под pdf? У меня с первой попытки лажа какая-то получилась - шрифты не те (жирность, размер или вообще не тот шрифт) + нет переносов строк (или они не нужны???) +Ещё один вопрос нуба: после создания pdf с OCR-слоем, что будет видеть на экране конечный пользователь - исходный скан или OCR-слой (это опять же к вопросу о кривизне строк, так как ScanTailor исправил многое, но не всё)?
|
|
rioter11
  Стаж: 17 лет 7 месяцев Сообщений: 1654
|
rioter11 ·
25-Май-14 20:30
(спустя 3 часа, ред. 25-Май-14 20:34)
Цитата:
после создания pdf с OCR-слоем, что будет видеть на экране конечный пользователь - исходный скан или OCR-слой
в FR есть разные варианты сохранения пдф:
-Только текст и картинки.
-Текст под изображением страницы.
-Текст поверх изображения страницы.
Цитата:
У меня с первой попытки лажа какая-то получилась - шрифты не те (жирность, размер или вообще не тот шрифт) + нет переносов строк (или они не нужны???)
в ФР можно выбрать в настройках: использовать шрифты Винды (которые лишь приблизительно могут быть похожи на шрифт книги) или назначить свои шрифты (если вы вручную подобрали наиболее похожий шрифт)
ClearScan ocr от АдобАкробат показывает хорошие результаты только если исходное изображение довольно качественное и только на моно-языковых текстах. Там нельзя выбрать несколько языков распознавания как в ФР 
в последних версиях ФР, в настройках сохранения ПДФ, появились новые фичи: технология "Abbyy Precise Scan" и "Использовать смешанное растровое содержание (MRC)"
- кто-нить может о них доступно рассказать? - я так понял что это похоже на Адобовский ClearScan но без ocr-a ?
|
|
cemehbl4
  Стаж: 15 лет 1 месяц Сообщений: 1352
|
cemehbl4 ·
25-Май-14 20:59
(спустя 29 мин., ред. 25-Май-14 20:59)
rioter11
А что на счёт знаков переноса слов?
И каким образом можно шрифт подобрать? Почитал про ClearScan - как я понял, главное, что он делает - это сглаживает контуры букв, но опять же глюки имеются. Так вот - стОит ли его использовать, у кого есть опыт? PS. Может ткнёте носом в подробный FAQ или руководство по FineReader, с описанием настроек и "подводных камней", гугл меня забанил - ничего не могу найти путного
|
|
rioter11
  Стаж: 17 лет 7 месяцев Сообщений: 1654
|
rioter11 ·
25-Май-14 21:07
(спустя 7 мин., ред. 25-Май-14 21:07)
Цитата:
А что на счёт знаков переноса слов? И каким образом можно шрифт подобрать?
если вы про значок «¬» так называемый мягкий перенос, который везде некрасиво отображается в окне "изображение и текст" то при сохранении в пдф на его месте будет (должен быть) нормальный знак переноса.
хотя у меня пару рах этот значок проявлялся и в конечном пфд 
подбор шрифтов: Настройки > вкладка Распознать > Шрифты -Выберите шрифты, которые будут использованы для сохранения распознанного текста. - в том списке Рекомендуется уменьшить количество выбранных шрифтов.
Но это только если сама книга напечатана стандартными шрифтами и в ней использовали небольшое их количество. Если же в книге много текста набранного разными шрифтами или использовались какие-то нестандартные шрифты -тогда проблема. Вручную искать и подбирать наиболее похожие шрифты -это надо быть перфекционистом или большим фанатом конкретной книги. Быстрее забить на эти оформительские изыски и использовать стандартные виндозные шрифты.
руководство по FineReader содержится в самом ФР, я сторонних подробных FAQ не знаю. Подбираю методом проб и ошибок под кажлую конкретную книгу (с колонтитулами часто мучаюсь и со шрифтами)
Цитата:
ClearScan - как я понял, главное, что он делает - это сглаживает контуры букв
Не только! он добавляет ocr-слой и опираясь на него "упрощает" графический слой! за счёт этого значительно уменьшается вес страницы и повышается удобочитаемость текста.
ocr при этом хуже чем ocr от ФР но ведь сохраняется и графическое изображение страницы!
Наиболее хорошие результаты показывает на чисто текстовых моноязыковых ч-б страницах.
|
|
kuzya-puzya
 Стаж: 15 лет 2 месяца Сообщений: 517
|
kuzya-puzya ·
26-Май-14 14:51
(спустя 17 часов)
Добрый день! Ребята-специалисты, очень нужна ваша помощь. 
Откопал я у себя очень ценный материал, но сканы в формате JPEG (правда не самого плохого качества), вот образец:
Уж больно загорелся я желанием придать всему этому благообразный вид. Попробовал, но не очень доволен результатом.
Подскажите, пожалуйста, алгоритм обработки по данному конкретному случаю, чтобы получить наиболее качественный результат. Спасибо!
P.S. Насколько я понял из прочтения форума, должен получиться DjVu-файл, так как чёрно-белое изображение?
|
|
cemehbl4
  Стаж: 15 лет 1 месяц Сообщений: 1352
|
cemehbl4 ·
26-Май-14 15:35
(спустя 44 мин.)
Совсем замучился с FineReader  Как в нём применить шрифт сразу ко всему распознаному блоку, не выделяя блок мышью, или как, например, убрать весь жирный шрифт во всей книге сразу (ну или на нескольких выбранных страницах). Пробовал создать стиль, но он не применяется к блокам, постоянно нужно выделять текст
|
|
Loexa
 Стаж: 15 лет 3 месяца Сообщений: 566
|
Loexa ·
26-Май-14 17:43
(спустя 2 часа 8 мин., ред. 26-Май-14 17:43)
|
|
rioter11
  Стаж: 17 лет 7 месяцев Сообщений: 1654
|
rioter11 ·
26-Май-14 18:33
(спустя 50 мин.)
kuzya-puzya
Советую воспользоваться советами из соседней темы FAQ по сборке (созданию) DjVu книги из сырых сканов пункт.2 -самое то для новичка!
После этих шагов обработанные сканы будут готовы к легкому превращению как в DJVU так и в PDF.
|
|
kuzya-puzya
 Стаж: 15 лет 2 месяца Сообщений: 517
|
kuzya-puzya ·
26-Май-14 19:00
(спустя 26 мин.)
Loexa, rioter11, ребят, спасибо большое! Scan Tailor люблю и уважаю, но беда в том, что не читает он jpeg.
|
|
cemehbl4
  Стаж: 15 лет 1 месяц Сообщений: 1352
|
cemehbl4 ·
26-Май-14 19:11
(спустя 11 мин., ред. 26-Май-14 19:11)
kuzya-puzya
JPEG перегнать в TIFF может быть? В качестве не потеряете и ScanTailor будет работать
|
|
kuzya-puzya
 Стаж: 15 лет 2 месяца Сообщений: 517
|
kuzya-puzya ·
26-Май-14 19:13
(спустя 1 мин.)
cemehbl4, ой,точно! Как же сам-то я не додумался!  Горе от ума уже.
|
|
rioter11
  Стаж: 17 лет 7 месяцев Сообщений: 1654
|
rioter11 ·
26-Май-14 19:16
(спустя 2 мин.)
Цитата:
Scan Tailor люблю и уважаю, но беда в том, что не читает он jpeg.
или- Book Restorer - в целом инструментарий у него не хуже чем в ScanTailor.
|
|
kuzya-puzya
 Стаж: 15 лет 2 месяца Сообщений: 517
|
kuzya-puzya ·
26-Май-14 19:20
(спустя 3 мин.)
Сейчас в Scan Tailor подредактировал поля и ориентацию, но вот как бы мне текст сделать более чётким, выразительным, да и всякие точки, мушки не вручную же стирать. Эх...
|
|
rioter11
  Стаж: 17 лет 7 месяцев Сообщений: 1654
|
rioter11 ·
26-Май-14 19:44
(спустя 24 мин., ред. 26-Май-14 21:17)
Цитата:
но вот как бы мне текст сделать более чётким, выразительным, да и всякие точки, мушки не вручную же стирать.
1. Режим Ч-б на вкладке Вывод.
2. функция Удаление пятен на вкладке Вывод - агрессивность настраивается.
а вот для боле чётких-выразительных букв я и использую ClearScan от Адоб Акробата!
|
|
cemehbl4
  Стаж: 15 лет 1 месяц Сообщений: 1352
|
cemehbl4 ·
26-Май-14 19:49
(спустя 4 мин.)
cemehbl4 писал(а):
64056013Совсем замучился с FineReader  Как в нём применить шрифт сразу ко всему распознаному блоку, не выделяя блок мышью, или как, например, убрать весь жирный шрифт во всей книге сразу (ну или на нескольких выбранных страницах). Пробовал создать стиль, но он не применяется к блокам, постоянно нужно выделять текст
Вот не люблю, когда мой вопрос в конце предыдущей страницы
|
|
Loexa
 Стаж: 15 лет 3 месяца Сообщений: 566
|
Loexa ·
27-Май-14 00:14
(спустя 4 часа)
cemehbl4 писал(а):
64058713Вот не люблю, когда мой вопрос в конце предыдущей страницы
Да я ответил, но случайно затёр ответ.
Вы выбрали самый сложный метод — практически восстановление оригинальной вёрстки. Я как-то пробовал и решил оставить до лучших времён. Если что, то шрифты лучше отдать на откуп файнридеру, а потом в готовом файле заменить их с помощью Infix PDF Editor. Определить шрифты можно на myfonts.com.
Значительно проще сделать DjVu или же PDF как "отсканированные страницы + слой распознанного текста".
kuzya-puzya писал(а):
64058075Scan Tailor люблю и уважаю, но беда в том, что не читает он jpeg
У меня читает.
|
|
cemehbl4
  Стаж: 15 лет 1 месяц Сообщений: 1352
|
cemehbl4 ·
27-Май-14 01:52
(спустя 1 час 37 мин., ред. 27-Май-14 01:52)
Loexa писал(а):
64061791Infix PDF Editor
Спасибо за наводку, попробуем.
Loexa писал(а):
64061791Определить шрифты можно на myfonts.com
Уже пробовал - не получилось, так как только ограниченное число букв ему можно показать (совпадающих с латиницей), выдал с десяток шрифтов - не один не подошёл на 100%, может есть какие-то "маленькие хитрости"?
Loexa писал(а):
64061791Вы выбрали самый сложный метод — практически восстановление оригинальной вёрстки. Я как-то пробовал и решил оставить до лучших времён
Ну в моей книге шрифтов штук 6 всего, наверное, используется - вот и заморочился
P.S. Когда решил этим заняться, то думал, что главный гемор - это сканирование (есть в этом уже какой-никакой опыт, правда с обложками CD), а оказалось, что это то самое лёгкое. Не во времена безрейтинговости рутрекера это было бы сказано, но я бы людям, которые делают раздачу своими руками сделанной книги, рейтинг от её аплоада умножал бы на 200
|
|
Loexa
 Стаж: 15 лет 3 месяца Сообщений: 566
|
Loexa ·
27-Май-14 12:52
(спустя 11 часов)
cemehbl4
Во-первых, посмотрите выходные данные книги, там часто указывается гарнитура. И ещё есть сервис identifont.com.
|
|
cemehbl4
  Стаж: 15 лет 1 месяц Сообщений: 1352
|
cemehbl4 ·
27-Май-14 14:13
(спустя 1 час 20 мин., ред. 27-Май-14 14:13)
Loexa писал(а):
64065628гарнитура
А что такое гарнитура? Слова такого не видел, печать офсетная - видел, формат - такой-то, а вот гарнитура...???
В википедии прочитал, что это. Только вот как это обозначается в книге?
|
|
|