|
tlotr11
 Стаж: 16 лет 11 месяцев Сообщений: 527
|
tlotr11 ·
02-Фев-15 22:13
(10 лет 3 месяца назад)
karl_karlsson писал(а):
66743721
tlotr11 писал(а):
66724054Наличие чёрного слоя позволяет скормить передний план файнридеру;
Только иногда бывают такие шрифты, что их FineReader не понимает.
Возможно вручную все ввести, только с этом проблемы, поэтому не делаю.
Ну и обложки обычно внутри дублируются, там уже все черно-белое.
То что я делаю:
- размер как у всех страниц
- либо будет как фото
- либо обрабатывается RasterID, потом Low Color используя DjVuSmall
А как с корешком поступаете? Не сканируете вовсе?
На обложке обычно не так много текста, чтобы его было сложно ввести вручную. А вот пользователь, открывший книгу, может подумать, что OCR в книге вовсе нет, если у него мышкой не выделится текст обложки. Но это я так, за уши притянул ситуацию.  В общем, конечно, это не принципиально и во многих случаях название книги дублируется.
|
|
karl_karlsson
 Стаж: 18 лет 9 месяцев Сообщений: 378
|
karl_karlsson ·
04-Фев-15 01:30
(спустя 1 день 3 часа, ред. 04-Фев-15 01:30)
tlotr11
Там проблема в том, что те шрифты, которые не читаются чаще бывают Wide/Expanded/Extended.
Поэтому необходимо, чтобы похожие шрифты были установлены в системе.
Потом внутри FineReader соответствующий шрифт выбираем.
Иначе текстовой слой начинается где надо, но заканчивается до конца печатного изображения.
Не то, что все это невозможно, но слишком длинное дело получается.
А еще сам FineReader все это чаще сохраняет не так как установлено, похоже Wide шрифты как-то не понимает, не знаю.
Я пока не полностью понял почему так получается.
tlotr11 писал(а):
66745738А как с корешком поступаете? Не сканируете вовсе?
Ну те книги, что чаще сканирую, там либо ничего нет, либо если есть, ничего такое специальное, что внутри книги отсутствует. Не скажу, что так правильнее, но хочется, чтобы все страницы были одинакового размера.
|
|
tlotr11
 Стаж: 16 лет 11 месяцев Сообщений: 527
|
tlotr11 ·
04-Фев-15 01:53
(спустя 22 мин., ред. 04-Фев-15 01:53)
karl_karlsson писал(а):
66758886tlotr11
Там проблема в том, что те шрифты, которые не читаются чаще бывают Wide/Expanded/Extended.
Поэтому необходимо, чтобы похожие шрифты были установлены в системе.
Потом внутри FineReader соответствующий шрифт выбираем.
Иначе текстовой слой начинается где надо, но заканчивается до конца печатного изображения.
А я на эту проблему не обращаю никакого внимания. Считаю, что важно просто чтобы был сам слой. А уж какой шрифт, как мне кажется, никому особого дела нет. Мне кажется, большая часть людей (сугубо моё мнение) будут выделять подобный текст (пара слов заголовка большими буквами) не побуквенно, а построчно, а, значит, выделится весь заголовок. Даже если выделят побуквенно, но неточно, то, очевидно, что выделяли они это для того,чтобы тут же скопировать и куда-то вставить. А вот там они сразу увидят некорректность выделения и смогут скорректировать его ещё раз более внимательно. На всё это у них уйдёт несколько секунд - несопоставимо меньше ваших затрат на подбор шрифтов!
karl_karlsson писал(а):
66758886
tlotr11 писал(а):
66745738А как с корешком поступаете? Не сканируете вовсе?
Ну те книги, что чаще сканирую, там либо ничего нет, либо если есть, ничего такое специальное, что внутри книги отсутствует.
Понятно. Я-то их сканирую для того, чтобы человек мог опознать её на полке в библиотеке или в магазине!
|
|
qzerss
Стаж: 12 лет 11 месяцев Сообщений: 254
|
qzerss ·
20-Фев-15 16:32
(спустя 16 дней)
Приветствую.
Поделитесь пожалуйста опытом создания книг в формате pdf.
Хочется узнать кто - как обрабатывает, какие программы использует.
Если можно последовательность действий.
Например - данный топик о ScanKromsator-е, я знаю что для создания хороших pdf - некоторые только его и используют - есть ли альтернатива получше - если нет, где можно взять актуальную версию?
Интересует и сам процесс (у кого-то с опытом он ведь уже отшлифован и не требует дополнительных телодвижений) - если кто сможет сделать хотя бы 5-минутный видео-урок с примером книги, хотя бы в 10 страничек - буду очень признателен, или пару скринов - чтоб увидеть где какие галочки выделять, на что обращать внимание.
Я знаю что все индивидуально и к разным книгам разные подходы - покажите хотя бы один, а кто-то покажет другой.
Например - книга в .jpeg - загружаем сразу же в ScanKromsator или желательно менять формат?
Как после ScanKromsator-а в Adobe Acrobat-е провести OCR ? Если использовать встроенный ClearScan - получится OCR с ошибками - а как их вычитать/исправить ? (когда вычитка производится в ABBYY FineReader-е то там можно сразу же вычитывать/править). Или OCR делается на "стороне" а потом просто внедряется?
Буду благодарен всем кто откликнется и поможет в этом интересном деле.
|
|
$Shorox
 Стаж: 16 лет 2 месяца Сообщений: 1673
|
$Shorox ·
20-Фев-15 16:47
(спустя 14 мин., ред. 20-Фев-15 16:47)
qzerss
На все Ваши вопросы здесь уже есть ответы:
Сканирование, обработка сканов
Ответ на самый первый Ваш вопрос и некоторые другие:
FAQ по сборке (созданию) DjVu книги из сырых сканов - Scan Tailor Featured
Скачать: Scan Tailor Featured
Дополнительно почитать: Scan Tailor Featured
|
|
qzerss
Стаж: 12 лет 11 месяцев Сообщений: 254
|
qzerss ·
20-Фев-15 17:20
(спустя 33 мин., ред. 20-Фев-15 17:20)
$Shorox - FAQ по сборке (созданию) DjVu книги из сырых сканов
Я этим методом создаю книги в формате DjVu. Тема очень интересна и мною зачитана.
Меня интересует формат pdf (там он только рассматривается поверхностно - так как тема о DjVu)
Допустим Вы после Scan Tailor Featured делаете pdf - как именно?
Хочется узнать о опыте работы с pdf.
Например - уважаемый rioter11 - описывал свой способ обработки: - после Scan Tailor-а, он в Adobe Acrobat-е указывает папку out - и так собирает pdf.
Я знаю что например уважаемый bob1972 - использует ScanKromsator.
Хотелось бы услышать пару слов чем лучше и на что обращать внимание - программы и их последовательность.
(как произвести вычитку в pdf?)
|
|
$Shorox
 Стаж: 16 лет 2 месяца Сообщений: 1673
|
$Shorox ·
20-Фев-15 17:46
(спустя 25 мин.)
qzerss
В PDF я редко делаю, потому что они у меня хуже получаются: особенно изображения и намного больше весят. Чтобы вес снизить приходится сканировать в 300 DPI. Мне в таком низком DPI не по душе сканировать. Книги у меня в основном старые и тогда детали теряются.
Так же из out.
Сильно вычиткой не занимаюсь, в основном в левом окне ABBYY FineReader границы выставляю, в правом текст правлю. Там он автоматом сохраняется.
|
|
qzerss
Стаж: 12 лет 11 месяцев Сообщений: 254
|
qzerss ·
20-Фев-15 18:28
(спустя 41 мин.)
$Shorox - спасибо.
Чтоб не заморачиваться вычиткой, есть ClearScan - мне же интересна сама вычитка - её методы.
Хочется научится в pdf книги собирать - ударение конечно идет не столько для сырых сканов, сколько для формата .jpeg - многие имеют книгу в этом формате (когда просят об обработке).
А каким способом можно вставить OCR - в pdf - никто не подскажет?
|
|
папаВлад
  Стаж: 14 лет 4 месяца Сообщений: 2650
|
папаВлад ·
20-Фев-15 18:42
(спустя 13 мин.)
qzerss
СканКромсатору и СканТэйлору без разницы в каком графическом формате входящие файлы, можете смело загружать и .jpeg.
После, выходные файлы будут в тиф, их отправляете в ФайнРидер, распознаёте настолько тщательно, насколько будет желание, и в нём же собираете в пдф. Акробат уже не понадобится.
|
|
qzerss
Стаж: 12 лет 11 месяцев Сообщений: 254
|
qzerss ·
20-Фев-15 21:21
(спустя 2 часа 39 мин.)
папаВлад
Благодарю!
А выходной pdf из ФайнРидера не тяжеловат будет ?
Поделитесь опытом - какие галочки в ФайнРидере стоят, качество изображения ставите высокое?
|
|
папаВлад
  Стаж: 14 лет 4 месяца Сообщений: 2650
|
папаВлад ·
21-Фев-15 03:24
(спустя 6 часов)
qzerss
В Вашем случае нет выбора, тяжёлый или лёгкий, только ФайнРидер даст нужное качественное распознавание, раз уж оно так важно.
Про галки не скажу, пользуюсь им по разовым моментам, в его настройках сжатия не силён. Пробуйте то так, то эдак, смотрите результат.
|
|
qzerss
Стаж: 12 лет 11 месяцев Сообщений: 254
|
qzerss ·
21-Фев-15 06:58
(спустя 3 часа)
папаВлад
Вот Вы сделали пдф-ку - Ювелирное литье - https://rutr.life/forum/viewtopic.php?p=66945301#66945301
Расскажите пожалуйста каким способом делали - вижу при увеличении буквы сглаженные - как у электронки.
|
|
ComboFZ
Стаж: 14 лет 4 месяца Сообщений: 163
|
ComboFZ ·
21-Фев-15 08:50
(спустя 1 час 51 мин., ред. 21-Фев-15 18:51)
qzerss
Цитата:
каким способом можно вставить OCR - в pdf
XChange PDF-Tools > Перекрывающий PDF
Callas PDF Toolbox > Tools > Switchboard > Arrange > Sandwich
Nuance PDF Converter Pro 7.3 Rus > Файл > Создать PDF > Наложить несколько файлов
Акробатовскими плагинами:
Imposal > Overlay
Quite Imposing Plus > n-up pages
|
|
папаВлад
  Стаж: 14 лет 4 месяца Сообщений: 2650
|
папаВлад ·
21-Фев-15 13:01
(спустя 4 часа)
В данном случае применялся КлеарСкан из Акробата, но Вам он не подойдёт, посмотрите как прошло распознавание, такое Вас не устроит.
|
|
agnostyc
Стаж: 15 лет 5 месяцев Сообщений: 21
|
agnostyc ·
20-Мар-15 05:45
(спустя 26 дней)
хах , да стоило сюда заглянуть перед тем как кромсатор юзать ))
|
|
cuneiform
 Стаж: 17 лет 1 месяц Сообщений: 1053
|
cuneiform ·
05-Апр-15 22:14
(спустя 16 дней, ред. 05-Апр-15 22:14)
agnostyc писал(а):
67234969хах , да стоило сюда заглянуть перед тем как кромсатор юзать ))
А скока страниц из 70 осилили?
Вот надо бы выжимки из дискуссии сделать, типа резюме, получится всего пара страниц, на случай "с поиском" в а/ PDF и б/ DJVU. - Иначе 70 стр. не осилить.
Брошу и я свои 5 копеек в дискуссию. Вот подробная инструкция на 6 стр. с картинками, как сделать PDF с OCR - в Акробате, ФР там мало известен. Это для студентов и научных работников университета.- Как видим, никто не заморачивается размером файлов. http://www.lehigh.edu/~inmedia/media_resources/mc_scan_instr/Acrobat_OCR.pdf
Для себя лично и сети можно сделать конвертацию в DJVU в PDF2DJVU (есть GUI).
Что до обложки, то имхо лучшая = самая простая и эффективная --- как у гугла ---, просто кусок цвета с надписью, и все. Tак для тысяч ваших книг. - Лучше трудно что-то придумать, т.к. лучшее - здесь - самое простое, единообразное, а не уникальное.
Для уникальных случаев, подарков, есть программы типа Autoplay CD Menu, туда можно многое чего вставить: картинки, музыку, инструкцию, посвящение, еtc., - да и сразу кучу книг и ридеров разных форматов. На ХР автоплей сам схватится, на 7 и выше придется запустить самому после обнаружения диска или флешки системой. К книге так можно свое интервью сделать. С помощью CD-Lock можно сделать диск нечитаемым -- с кракозябами -- зашифрованным, паролем он распаролевается и становится читабельным.
А под занавес на этот же CD/DVD можно сделать надписи на диске технологией LightScribe вашими любимыми шрифтами в SureThing.
|
|
Shahovskoj
Стаж: 13 лет 7 месяцев Сообщений: 7
|
Shahovskoj ·
14-Апр-15 14:45
(спустя 8 дней)
Прошу помочь!
Имею на руках сканированные книги, которые надо обработать и привести в нормальный вид.
Не могу разрешить проблему вот какую. Не удается обрезать края книги таким образом, чтобы в многостраничном файле они все шли в одном размере. Получается, что каждая страница имеет свой размер. Как решить эту проблему, и массово обработать поля и края книги, придав им нужный размер? Обрабатывал в ScanKromsator, в итоге он мне поместил обрезаную страницу на белую страницу, но размеры полей все равно изменяются с каждой страницей.
|
|
DjVu-Master
 Стаж: 15 лет 4 месяца Сообщений: 6135
|
DjVu-Master ·
14-Апр-15 14:49
(спустя 3 мин.)
Shahovskoj писал(а):
67504216Обрабатывал в ScanKromsator
Используйте для обработки СТ.
Прочтите 2. Обработка сырых сканов (4. Полезная область / 5. Поля).
|
|
Shahovskoj
Стаж: 13 лет 7 месяцев Сообщений: 7
|
Shahovskoj ·
14-Апр-15 21:16
(спустя 6 часов, ред. 14-Апр-15 21:25)
мне не надо джву, мне надо вывести и сохранить все сканы в тифф или пдф
|
|
DjVu-Master
 Стаж: 15 лет 4 месяца Сообщений: 6135
|
DjVu-Master ·
14-Апр-15 21:22
(спустя 6 мин.)
Shahovskoj писал(а):
67509235мне не надо джву, мне надо вывести и сохранить все сканы в тифф или пдф
DjVu-Master писал(а):
67504256Прочтите 2. Обработка сырых сканов (4. Полезная область / 5. Поля).
Я вам не предлагал изучать 3. Сборка книги из обработанных сканов.
|
|
vesbland
 Стаж: 15 лет 1 месяц Сообщений: 1416
|
vesbland ·
30-Апр-15 20:48
(спустя 15 дней)
А можно как-нибудь пакетно уже готовую пдф-книгу разворотами разрезать пространично, а то неудобно на планшете пользоваться.
И еще - вставляю в пдф-ку аудио и видео-файлы, на моем компе все отлично, но как поделиться плодами моего труда? Ну допустим я могу дать строгие инструкции - в какую именно папку установить это все, но как быть с планшетами?
|
|
slava_kry
Стаж: 18 лет Сообщений: 245
|
slava_kry ·
01-Май-15 07:35
(спустя 10 часов)
vesbland писал(а):
67663820И еще - вставляю в пдф-ку аудио и видео-файлы, на моем компе все отлично, но как поделиться плодами моего труда? Ну допустим я могу дать строгие инструкции - в какую именно папку установить это все, но как быть с планшетами?
C аудио и видео основной вопрос в версии вьюера (чем выше, тем лучше, желательно вер. 10-12) и наличии флеш-плеера на компе, больше вопросов нет. На планшете медиа в PDF во вьюерах кажется не просматривается (у меня так).
Файл медиа импортируется внутрь PDF, так что ничего кроме файла не нужно.
vesbland писал(а):
67663820А можно как-нибудь пакетно уже готовую пдф-книгу разворотами разрезать постранично, а то неудобно на планшете пользоваться.
Можно, но фактически это будет пересборка, т.к. сначала нужно разрезать... насколько я помню.
|
|
папаВлад
  Стаж: 14 лет 4 месяца Сообщений: 2650
|
папаВлад ·
01-Май-15 12:23
(спустя 4 часа)
vesbland писал(а):
67663820А можно как-нибудь пакетно уже готовую пдф-книгу разворотами разрезать пространично, а то неудобно на планшете пользоваться.
slava_kry писал(а):
67667758Можно, но фактически это будет пересборка, т.к. сначала нужно разрезать... насколько я помню.
В Акробате вариант с обрезкой. То есть, если обложки отдельно-одинарные, то их пока выкинем/извлекём (сохраним отдельными пдф), оставим лишь парные страницы, далее делаем копию этого пдф, переименуем в названия файл_1.pdf и файл_2.pdf, потом на первом делаем обрезку слева (применить ко всем), затем на втором файле наоборот справа обрезать. Вот тут надо эти 2 пдф разложить на отдельные страницы в пдф, но я не помню, как без пережатия, slava_kry подскажи. Так было бы удобно, получились левые _1, а правые _2, потом тупо объединить, всё будет по-порядку. Либо придётся вручную соединить два левых/правых файла и перетаскивать страницы на своё место. Если страниц много, то я бы тогда всё-таки пересохранил в тиф и заново сжал, так быстрее из-за правильной сортировки. Остается не забыть вернуть одинарные обложки. Готово. Но, имейте ввиду, если делали все операции в пдф, то просмотр на экране будет правильным, а при печати эти обрезанные части будут печатся на принтере, там обрезки сохранены в пдф, но скрыты от просмотра, а если через тиф пережимали, то по-любому всё будет OK.
vesbland, либо скиньте файл, сделаю.
|
|
slava_kry
Стаж: 18 лет Сообщений: 245
|
slava_kry ·
01-Май-15 15:12
(спустя 2 часа 49 мин.)
папаВлад
Дык это и есть пересборка 
1. извлечь одностраничники.
2. сделать дубль блока разворотов.
3. отрезать от одного левую, а от другого правую страницы.
4. попробовать выбросить отрезанное.
5. разделить левый блок постранично, переименовать через один чётно.
6. разделить правый блок постранично, переименовать через одни нечётно.
7. Собрать вместе и добавить обложку. 
Кажется так. 
А пересжатия и так не будет, т.к. по существу вы же внутренностей не касаетесь.
|
|
папаВлад
  Стаж: 14 лет 4 месяца Сообщений: 2650
|
папаВлад ·
01-Май-15 15:36
(спустя 23 мин.)
slava_kry писал(а):
676709774. попробовать выбросить отрезанное.
Не так давно где-то обсуждали, была загвоздка, мол на принтер после обрезки всё-равно содержимое обрезанного выводится, и тогда не побороли, либо пересохранять через тиф.
slava_kry писал(а):
676709775. разделить левый блок постранично, переименовать через один чётно.
6. разделить правый блок постранично, переименовать через одни нечётно.
Как делить на постраничные пдф? Если извлекать, то получается только по одной странице=пдф. Вдруг там сотни страниц. А нужно как на тифы выводит постраничные.
-
Конечно, можно потом переименовать, но лучше сразу, тогда будет из двух вариантов сразу правильная сортировка, типа
Страница 1 из файл_1.pdf
Страница 1 из файл_2.pdf
Страница 2 из файл_1.pdf
Страница 2 из файл_2.pdf
Страница 3 из файл_1.pdf
Страница 3 из файл_2.pdf
Остаётся только объединить в один пдф, никаких дополнительных переименований.
|
|
tyuusya
  Стаж: 16 лет 11 месяцев Сообщений: 6328
|
tyuusya ·
01-Май-15 15:44
(спустя 8 мин., ред. 01-Май-15 15:44)
папаВлад писал(а):
67671175на тифы выводит постраничные.
так скантэйлор и скан кромсатор сам правильно обзывает страницы при разрезании
Есть какой-нибуль простой способ извлечь из pdf-файла сканы автоматически? Может есть простая утилитка?
|
|
$Shorox
 Стаж: 16 лет 2 месяца Сообщений: 1673
|
$Shorox ·
01-Май-15 15:53
(спустя 9 мин., ред. 01-Май-15 15:53)
tyuusya
PDF-XChange Viewer
Запускаем программу, выбираем "Файл" -> "Экспорт" -> "В изображение" -> "Диапазон страниц" -> "Все" -> Тип изображения TIFF -> "Папку назначения" для извлеканмых файлов -> "Ок".
|
|
Loexa
 Стаж: 15 лет 5 месяцев Сообщений: 561
|
Loexa ·
01-Май-15 16:00
(спустя 6 мин.)
папаВлад писал(а):
67671175Как делить на постраничные пдф?
PDF Split and Merge?
|
|
slava_kry
Стаж: 18 лет Сообщений: 245
|
slava_kry ·
01-Май-15 16:14
(спустя 14 мин., ред. 01-Май-15 16:14)
папаВлад писал(а):
67671175Как делить на постраничные пдф?
??? "Tools-Pages-Split Document" ставите по одной странице.
Народ, вы чё?
папаВлад писал(а):
67671175Вдруг там сотни страниц. А нужно как на тифы выводит постраничные.
Зачем???
ТоталКомандером переименовываете - правую сторону 1;3;5;7;9... и левую 2;4;6;8;10... - соединяете и собираете Акробатом через File-Create-Combine files into a single PDF; либо открываете первую обложку и к ней присоединяете остальное через Tools-Pages- Insert from File.
Говорю про 10-12 Акробаты...
|
|
папаВлад
  Стаж: 14 лет 4 месяца Сообщений: 2650
|
папаВлад ·
01-Май-15 16:25
(спустя 10 мин.)
Наверняка подойдёт, специально не искал ответ в инете, хотел всё в одной программе сделать, да не знаю как.
slava_kry писал(а):
67671486
папаВлад писал(а):
67671175Как делить на постраничные пдф?
??? "Tools-Pages-Split Document" ставите по одной странице.
Народ, вы чё?
папаВлад писал(а):
67671175Вдруг там сотни страниц. А нужно как на тифы выводит постраничные.
Зачем???
ТоталКомандером переименовываете - правую сторону 1;3;5;7;9... и левую 2;4;6;8;10... - соединяете и собираете Акробатом через File-Create-Combine files into a single PDF; либо открываете первую обложку и к ней присоединяете остальное через Tools-Pages- Insert from File.
Говорю про 10-12 Акробаты...
Окей, теперь вижу. По русски так
Ну теперь всё легко
|
|
|