Архив: Создание электронных книг из сканов: как получить DjVu или PDF из бумажной книги? [2160930]

Страницы :   Пред.  1, 2, 3 ... 57, 58, 59 ... 96, 97, 98  След.
Тема закрыта
 

karl_karlsson

Стаж: 18 лет 6 месяцев

Сообщений: 377

karl_karlsson · 27-Май-14 17:14 (10 лет 8 месяцев назад)

kuzya-puzya писал(а):
64058075Loexa, rioter11, ребят, спасибо большое! Scan Tailor люблю и уважаю, но беда в том, что не читает он jpeg.
Еще первая версия 0.9 с 2008 года читает jpeg и все, что он на сегодня читает.
cemehbl4 писал(а):
64066112В википедии прочитал, что это. Только вот как это обозначается в книге?
Возможно и никак. Ну сделайте фото некоторого отрывка страницы, где эти шрифты и встречаются.
Еще, скорее всего, они будут коммерческие и возможно вы их не найдете свободным доступом в сети.
[Профиль]  [ЛС] 

cemehbl4

Top Seed 02* 80r

Стаж: 15 лет 1 месяц

Сообщений: 1352

cemehbl4 · 27-Май-14 17:30 (спустя 15 мин.)

karl_karlsson
Мне кажется - самые обычные шрифты (по крайней мере основные), только я в них не разбираюсь
Вот скинул примеры страниц со всеми шрифтами, использованными в книге, надеюсь поможет кто-нибудь
скрытый текст
[Профиль]  [ЛС] 

<Ra>

Стаж: 15 лет 11 месяцев

Сообщений: 164

<Ra> · 27-Май-14 20:10 (спустя 2 часа 39 мин.)

Здравствуйте! Подскажите, как извлечь текстовый слой из пдф (я распознал в ФР уже) и потом подшить его в уже готовую пдфку?
[Профиль]  [ЛС] 

Loexa

Стаж: 15 лет 3 месяца

Сообщений: 566

Loexa · 27-Май-14 21:00 (спустя 50 мин.)

cemehbl4
Немножко поискал — больше всего похоже на Petersburg Multilingual Book от Lynotipe. В самой книжке шрифт не указан. Это 286 стр., где "подписано в печать", количество печатных листов и т.д.
[Профиль]  [ЛС] 

karl_karlsson

Стаж: 18 лет 6 месяцев

Сообщений: 377

karl_karlsson · 27-Май-14 21:50 (спустя 50 мин.)

cemehbl4
ITC Bookman - ParaType
Это внутри книги.
Остается смотреть на 0003.tif, 0287.tif, 0288.tif - там еще некоторое число декоративных, я их совсем не знаю.
Loexa
Petersburg это ~Кудряшевская энциклопедическая.
[Профиль]  [ЛС] 

---lll

Стаж: 11 лет 1 месяц

Сообщений: 685

---lll · 27-Май-14 22:01 (спустя 10 мин.)

cemehbl4 писал(а):
64048320Почитал про ClearScan - как я понял, главное, что он делает - это сглаживает контуры букв, <...>
Да, визуально он сглаживает буквы. Точнее, векторизирует.
Цитата:
<...> но опять же глюки имеются.
Попытайтесь отклеарсканить не всю книгу за один раз, а блоками по несколько страниц.
Цитата:
Так вот - стОит ли его использовать, у кого есть опыт?
Смотря какие цели вы преследуете.
К слову, если в STF в настройках задрать значение dpi до упора - 1200, то эффект будет примерно как от ClearScan. Советую при таком подходе, если возникнет желание конечно, в настройках DjVu Small Mod - Options - Encode to DjVu(2) - Text quality поставить минимальное, драфтовое, так как сами понимаете, при 1200 никаких проблем с "инями" (и->н) не возникнет, а так, можно размер выходного файла уменьшить.
[Профиль]  [ЛС] 

cemehbl4

Top Seed 02* 80r

Стаж: 15 лет 1 месяц

Сообщений: 1352

cemehbl4 · 27-Май-14 22:08 (спустя 7 мин., ред. 27-Май-14 22:08)

karl_karlsson
Спасибо Вам. Может ткнёте носом где взять его и Petersburg Multilingual Book от Lynotipe? Лучше в ЛС, наверное
cemehbl4 писал(а):
64068423Мне кажется - самые обычные шрифты
Вот уж где я оказался не прав
Если не реально или сложно найти эти шрифты "за так", то нет смысла заморачиваться, проще подобрать стандартные похожие. Georgia похож вроде на основной внутри книги
---lll
Ну пока ClearScan считаю не нужным в моём случае, вроде и так всё прилично выглядит. Но возможно в будущем и пригодится.
---lll писал(а):
64071865Смотря какие цели вы преследуете.
Так вот это и интересно, в каких случаях его нужно применять
[Профиль]  [ЛС] 

Loexa

Стаж: 15 лет 3 месяца

Сообщений: 566

Loexa · 28-Май-14 00:04 (спустя 1 час 56 мин., ред. 28-Май-14 00:04)

karl_karlsson писал(а):
64071730ITC Bookman - ParaType
Да, этот больше похож, чем Petersburg. Метод поиска не подскажете?
[Профиль]  [ЛС] 

cemehbl4

Top Seed 02* 80r

Стаж: 15 лет 1 месяц

Сообщений: 1352

cemehbl4 · 28-Май-14 00:36 (спустя 31 мин.)

Loexa писал(а):
64072663Метод поиска не подскажете?
Тоже интересно
[Профиль]  [ЛС] 

karl_karlsson

Стаж: 18 лет 6 месяцев

Сообщений: 377

karl_karlsson · 28-Май-14 13:57 (спустя 13 часов)

Loexa, cemehbl4
Ну строгих алгоритмов сюда нет, это некоторое искусство.
Смотрим какие там формы, пропорции, засечки - начиная с самым простым типа "o", "е" - заканчивая самым сложным типа "б", "ж", "к" например.
Существуют самые разные классификации, например
The Classification of Fonts
Type Classifications
Где-то лучше, где-то хуже бывает - например Bookman вставили к Clarendon, притом как сам Clarendon ближе к Didone, а вот Bookman происходит из Caslon, который является Old Style. Ну везде там связи разные имеются, не все однозначно.
А вот шрифты без засечек, там засечек не и остаются только формы, пропорции. Притом еще толщина линии не меняется особо. Например Helvetica и Arial очень мало отличаются. Притом простое практически то же самое, но отличается только сложное - "б", "ж", "к" например.
Ну и наконец необходимо, чтобы самые основные шрифты вы видели и рассматривали детали - скорее всего это засечки. Потому что формы, пропорции обычно сами бросаются и человек их запоминает.
Ну что то такое.
0288.tif
Без засечек, это действительно что-то похоже на Helvetica, притом оказывается самый обычный Arial.
Логотип издательства "амфора"
FF Dax & FF Daxline
[Профиль]  [ЛС] 

Loexa

Стаж: 15 лет 3 месяца

Сообщений: 566

Loexa · 28-Май-14 14:57 (спустя 1 час)

Так-то понятно, однако ж для этого нужна какая-то библиотека шрифтов с возможностью их сортировки по каким-то признакам. Или вы их все наизусть помните?:)
[Профиль]  [ЛС] 

kuzya-puzya

Стаж: 15 лет 2 месяца

Сообщений: 517

kuzya-puzya · 28-Май-14 17:20 (спустя 2 часа 22 мин.)

rioter11, большое спасибо за совет! Буду пробовать, пока вроде неплохо получается. В идеале конечно хочется, чтобы одна универсальная программа выполнила всю работу от и до. А то сейчас я даже Point'ом не брезгую,чтобы всякие соринки с изображения убирать.
[Профиль]  [ЛС] 

cemehbl4

Top Seed 02* 80r

Стаж: 15 лет 1 месяц

Сообщений: 1352

cemehbl4 · 01-Июн-14 23:09 (спустя 4 дня)

Думаю, финальный вопрос: нужно ли исправлять опечатки в OCR-слое?
[Профиль]  [ЛС] 

SI{AY

Стаж: 16 лет 10 месяцев

Сообщений: 1318

SI{AY · 01-Июн-14 23:12 (спустя 3 мин.)

cemehbl4
по желанию. Кто то вычитывает, кто то нет. Если исходный текст в нормальном качестве, то для поиска в принципе хватает и не вычитанного обычно.
[Профиль]  [ЛС] 

cemehbl4

Top Seed 02* 80r

Стаж: 15 лет 1 месяц

Сообщений: 1352

cemehbl4 · 02-Июн-14 00:12 (спустя 59 мин.)

SI{AY
Книгу я вычитал, я имею ввиду исходные опечатки в оригинальном тексте
[Профиль]  [ЛС] 

SI{AY

Стаж: 16 лет 10 месяцев

Сообщений: 1318

SI{AY · 02-Июн-14 00:21 (спустя 8 мин.)

вот честно не знаю. есть борцы что электронная книга должна макимально походить на бумадную. книги ради книг. а есть кто за произведения)
в общем если делается ocr для djvu то обычно делают чтоб текст соответствовал картинке.
в общем на ваш страх и риск все)
[Профиль]  [ЛС] 

cemehbl4

Top Seed 02* 80r

Стаж: 15 лет 1 месяц

Сообщений: 1352

cemehbl4 · 02-Июн-14 00:35 (спустя 14 мин.)

SI{AY
Спасибо за подсказку. Значит для PDF/DJVU сделаю с сохранением оригинального текста, а вот если руки дойдут до EPUB - тогда и исправлю
[Профиль]  [ЛС] 

<Ra>

Стаж: 15 лет 11 месяцев

Сообщений: 164

<Ra> · 02-Июн-14 23:58 (спустя 23 часа)

Здравствуйте!
У меня есть готовый пдф книга (отсканированные страницы). Мне нужно туда подшить слой текста (чтобы не нарушалась верстка книги, там много картинок). Подскажите, пожалуйста, как это сделать. Текст в ФР уже распознал.
[Профиль]  [ЛС] 

cemehbl4

Top Seed 02* 80r

Стаж: 15 лет 1 месяц

Сообщений: 1352

cemehbl4 · 03-Июн-14 00:56 (спустя 58 мин.)

<Ra>
Так в FineReader'е же выбираете - Оформление документа >>> Точная копия - соответственно картинки должны быть все выделены и стоять галка "Сохранять рисунки"
[Профиль]  [ЛС] 

<Ra>

Стаж: 15 лет 11 месяцев

Сообщений: 164

<Ra> · 03-Июн-14 01:58 (спустя 1 час 2 мин., ред. 03-Июн-14 01:58)

cemehbl4
Я так пробовал, но ФР портит картинки (у меня ноты там и они получаются в гораздо худшем качестве).
Я знаю, что как-то подшивают текст в пдф'ки, но не знаю как. Поэтому и прошу помощи.
[Профиль]  [ЛС] 

rioter11

Top Seed 04* 320r

Стаж: 17 лет 7 месяцев

Сообщений: 1654

rioter11 · 03-Июн-14 07:26 (спустя 5 часов)

Цитата:
Я так пробовал, но ФР портит картинки (у меня ноты там и они получаются в гораздо худшем качестве).
Настройки > Сохранить> PDF > Качество Изображения > выбрать Высокое качество (разрешение исходного изображения). + Сохранять рисунки.
Выложите одну страницу посмотреть для примера.
[Профиль]  [ЛС] 

cemehbl4

Top Seed 02* 80r

Стаж: 15 лет 1 месяц

Сообщений: 1352

cemehbl4 · 03-Июн-14 09:09 (спустя 1 час 43 мин.)

<Ra>
В настройках сохранения PDF качество зображений надо поставить по максимуму: 300 DPI и "потеря качества запрещена"
[Профиль]  [ЛС] 

slava_kry

Стаж: 17 лет 10 месяцев

Сообщений: 244


slava_kry · 05-Июн-14 15:00 (спустя 2 дня 5 часов)

<Ra>
от Astra55 (ru-board)
Цитата:
1. Удалить текст из PDF с OCR слоем, используя только Acrobat:
- открыть файл в Acrobat - Preflight - Create PDF layer - Put all text object on a layer - сохранить под другим именем - Layers - выбрать текстовый слой - снять показ текстового слоя - Flatten Layers, сохранить PDF файл под другим именем.
2. Перенос OCR текста из FineReader в файл PDF:
- если был текстовый слой, см. п.1, если нет, открываем или создаем файл Image_layer.pdf, откуда, где и как - неважно;
- открываем Image_layer.pdf в FineReader, распознаем, подправляем, но без радикального изменения форматирования, сохраняем в PDF как "Текст под изображением страницы", сохраняя размер оригинала, под именем Image+Text_OCR.pdf;
- Открываем Image+Text_OCR.pdf в Acrobat - Preflight - Create PDF layer - Create separate layers for vector objects, text and images - сохраняем под другим именем Image+Text_OCR2.pdf - снимаем показ слоя Image, оставляя только слой Text - Flatten Layers, сохранить файл под именем Text_layer.pdf;
- Вариант А: Открываем в Acrobat файл Image_layer.pdf - Preflight - Create PDF layer - Put all image objects on layers - сохраняем под именем Image_layer2.pdf - Layers - Import as Layer... - открываем файл Text_layer.pdf - Add to existing layer - Order - Appear behind page - Flatten Layers, сохранить файл под именем Full.pdf.
- Вариант B: Одновременно открываем в Acrobat X c плагином Imposal файлы Image_layer.pdf и Text_layer.pdf, запускаем Imposal, выбираем Overlay... - Bottom file - Text_layer.pdf, Top file - Image_layer.pdf, отмечаем Use the bottom document once - Overlay.
Разумеется, имена файлов выбираются по желанию, никакого волшебства в показанных примерах нет
Сам не пробовал, но ему доверяю.
[Профиль]  [ЛС] 

<Ra>

Стаж: 15 лет 11 месяцев

Сообщений: 164

<Ra> · 11-Июн-14 19:21 (спустя 6 дней)

Спасибо за ответы! Помогло. Я только начал заниматься обработкой книг и возникает много вопросов.
[Профиль]  [ЛС] 

pwoerlkj

Стаж: 17 лет

Сообщений: 98


pwoerlkj · 19-Июн-14 11:44 (спустя 7 дней)

подскажите, пожалуйста, как можно сделать файлы, уже обработанные файл кромсатором, одинакового размера. спасибо
[Профиль]  [ЛС] 

ka81

Стаж: 18 лет 7 месяцев

Сообщений: 1234

ka81 · 20-Июн-14 13:00 (спустя 1 день 1 час)

Скажите, а есть ли какие-нибудь группы энтузиастов, которые (если им интересно) берутся за оцифровку предложенных им книг ?
[Профиль]  [ЛС] 

DjVu-Master

Стаж: 15 лет 1 месяц

Сообщений: 6137

DjVu-Master · 20-Июн-14 13:03 (спустя 3 мин.)

ka81 писал(а):
64315480Скажите, а есть ли какие-нибудь группы энтузиастов, которые (если им интересно) берутся за оцифровку предложенных им книг ?
Вы хотите дать книгу чтобы ее оцифровали?
Или у вас есть сканы этой книги и хотите чтобы их кто-то обработал?
[Профиль]  [ЛС] 

ka81

Стаж: 18 лет 7 месяцев

Сообщений: 1234

ka81 · 20-Июн-14 13:13 (спустя 10 мин.)

у меня есть полностью вся (по идее, насоклько я разузнал) в бумажном виде:
Библиотека мировой литературы для детей
Москва
"Детская литература"
Опознавательный знак на обложке на торце сверху - на фоне глобуса стебель пшеницы
50 томов (некоторые тома иемют части)
визуально вот они - http://www.livelib.ru/series/4499#books
[Профиль]  [ЛС] 

DjVu-Master

Стаж: 15 лет 1 месяц

Сообщений: 6137

DjVu-Master · 20-Июн-14 13:16 (спустя 2 мин.)

ka81
У вас сканер есть?
[Профиль]  [ЛС] 

ka81

Стаж: 18 лет 7 месяцев

Сообщений: 1234

ka81 · 20-Июн-14 13:22 (спустя 6 мин.)

DjVu-Master писал(а):
64315601ka81
У вас сканер есть?

сканера нет, даже если бы и был - я посему и спрашиваю тут, ибо имеются (к сожалению) причины, по которым я лично не смог бы этим заниматься.
В общем, собственно вопрос - может где есть такие группы/форумы,.. кому можно предложиться на оцифровку такой вариант?..
[Профиль]  [ЛС] 
 
Тема закрыта
Loading...
Error