|
karl_karlsson
 Стаж: 18 лет 6 месяцев Сообщений: 377
|
karl_karlsson ·
27-Май-14 17:14
(10 лет 8 месяцев назад)
kuzya-puzya писал(а):
64058075Loexa, rioter11, ребят, спасибо большое! Scan Tailor люблю и уважаю, но беда в том, что не читает он jpeg. 
Еще первая версия 0.9 с 2008 года читает jpeg и все, что он на сегодня читает.
cemehbl4 писал(а):
64066112В википедии прочитал, что это. Только вот как это обозначается в книге?
Возможно и никак. Ну сделайте фото некоторого отрывка страницы, где эти шрифты и встречаются.
Еще, скорее всего, они будут коммерческие и возможно вы их не найдете свободным доступом в сети.
|
|
cemehbl4
  Стаж: 15 лет 1 месяц Сообщений: 1352
|
cemehbl4 ·
27-Май-14 17:30
(спустя 15 мин.)
karl_karlsson
Мне кажется - самые обычные шрифты (по крайней мере основные), только я в них не разбираюсь 
Вот скинул примеры страниц со всеми шрифтами, использованными в книге, надеюсь поможет кто-нибудь
|
|
<Ra>
 Стаж: 15 лет 11 месяцев Сообщений: 164
|
<Ra> ·
27-Май-14 20:10
(спустя 2 часа 39 мин.)
Здравствуйте! Подскажите, как извлечь текстовый слой из пдф (я распознал в ФР уже) и потом подшить его в уже готовую пдфку?
|
|
Loexa
 Стаж: 15 лет 3 месяца Сообщений: 566
|
Loexa ·
27-Май-14 21:00
(спустя 50 мин.)
cemehbl4
Немножко поискал — больше всего похоже на Petersburg Multilingual Book от Lynotipe. В самой книжке шрифт не указан. Это 286 стр., где "подписано в печать", количество печатных листов и т.д.
|
|
karl_karlsson
 Стаж: 18 лет 6 месяцев Сообщений: 377
|
karl_karlsson ·
27-Май-14 21:50
(спустя 50 мин.)
cemehbl4
ITC Bookman - ParaType
Это внутри книги.
Остается смотреть на 0003.tif, 0287.tif, 0288.tif - там еще некоторое число декоративных, я их совсем не знаю. Loexa
Petersburg это ~Кудряшевская энциклопедическая.
|
|
---lll
 Стаж: 11 лет 1 месяц Сообщений: 685
|
---lll ·
27-Май-14 22:01
(спустя 10 мин.)
cemehbl4 писал(а):
64048320Почитал про ClearScan - как я понял, главное, что он делает - это сглаживает контуры букв, <...>
Да, визуально он сглаживает буквы. Точнее, векторизирует.
Цитата:
<...> но опять же глюки имеются.
Попытайтесь отклеарсканить не всю книгу за один раз, а блоками по несколько страниц.
Цитата:
Так вот - стОит ли его использовать, у кого есть опыт?
Смотря какие цели вы преследуете.
К слову, если в STF в настройках задрать значение dpi до упора - 1200, то эффект будет примерно как от ClearScan. Советую при таком подходе, если возникнет желание конечно, в настройках DjVu Small Mod - Options - Encode to DjVu(2) - Text quality поставить минимальное, драфтовое, так как сами понимаете, при 1200 никаких проблем с "инями" (и->н) не возникнет, а так, можно размер выходного файла уменьшить.
|
|
cemehbl4
  Стаж: 15 лет 1 месяц Сообщений: 1352
|
cemehbl4 ·
27-Май-14 22:08
(спустя 7 мин., ред. 27-Май-14 22:08)
karl_karlsson
Спасибо Вам. Может ткнёте носом где взять его и Petersburg Multilingual Book от Lynotipe? Лучше в ЛС, наверное
cemehbl4 писал(а):
64068423Мне кажется - самые обычные шрифты
Вот уж где я оказался не прав 
Если не реально или сложно найти эти шрифты "за так", то нет смысла заморачиваться, проще подобрать стандартные похожие. Georgia похож вроде на основной внутри книги ---lll
Ну пока ClearScan считаю не нужным в моём случае, вроде и так всё прилично выглядит. Но возможно в будущем и пригодится.
---lll писал(а):
64071865Смотря какие цели вы преследуете.
Так вот это и интересно, в каких случаях его нужно применять
|
|
Loexa
 Стаж: 15 лет 3 месяца Сообщений: 566
|
Loexa ·
28-Май-14 00:04
(спустя 1 час 56 мин., ред. 28-Май-14 00:04)
karl_karlsson писал(а):
64071730ITC Bookman - ParaType
Да, этот больше похож, чем Petersburg. Метод поиска не подскажете?
|
|
cemehbl4
  Стаж: 15 лет 1 месяц Сообщений: 1352
|
cemehbl4 ·
28-Май-14 00:36
(спустя 31 мин.)
Loexa писал(а):
64072663Метод поиска не подскажете?
Тоже интересно
|
|
karl_karlsson
 Стаж: 18 лет 6 месяцев Сообщений: 377
|
karl_karlsson ·
28-Май-14 13:57
(спустя 13 часов)
Loexa, cemehbl4
Ну строгих алгоритмов сюда нет, это некоторое искусство.
Смотрим какие там формы, пропорции, засечки - начиная с самым простым типа "o", "е" - заканчивая самым сложным типа "б", "ж", "к" например.
Существуют самые разные классификации, например
The Classification of Fonts
Type Classifications
Где-то лучше, где-то хуже бывает - например Bookman вставили к Clarendon, притом как сам Clarendon ближе к Didone, а вот Bookman происходит из Caslon, который является Old Style. Ну везде там связи разные имеются, не все однозначно.
А вот шрифты без засечек, там засечек не и остаются только формы, пропорции. Притом еще толщина линии не меняется особо. Например Helvetica и Arial очень мало отличаются. Притом простое практически то же самое, но отличается только сложное - "б", "ж", "к" например.
Ну и наконец необходимо, чтобы самые основные шрифты вы видели и рассматривали детали - скорее всего это засечки. Потому что формы, пропорции обычно сами бросаются и человек их запоминает.
Ну что то такое. 
0288.tif
Без засечек, это действительно что-то похоже на Helvetica, притом оказывается самый обычный Arial.
Логотип издательства "амфора"
FF Dax & FF Daxline
|
|
Loexa
 Стаж: 15 лет 3 месяца Сообщений: 566
|
Loexa ·
28-Май-14 14:57
(спустя 1 час)
Так-то понятно, однако ж для этого нужна какая-то библиотека шрифтов с возможностью их сортировки по каким-то признакам. Или вы их все наизусть помните?:)
|
|
kuzya-puzya
 Стаж: 15 лет 2 месяца Сообщений: 517
|
kuzya-puzya ·
28-Май-14 17:20
(спустя 2 часа 22 мин.)
rioter11, большое спасибо за совет! Буду пробовать, пока вроде неплохо получается. В идеале конечно хочется, чтобы одна универсальная программа выполнила всю работу от и до. А то сейчас я даже Point'ом не брезгую,чтобы всякие соринки с изображения убирать.
|
|
cemehbl4
  Стаж: 15 лет 1 месяц Сообщений: 1352
|
cemehbl4 ·
01-Июн-14 23:09
(спустя 4 дня)
Думаю, финальный вопрос: нужно ли исправлять опечатки в OCR-слое?
|
|
SI{AY
 Стаж: 16 лет 11 месяцев Сообщений: 1318
|
SI{AY ·
01-Июн-14 23:12
(спустя 3 мин.)
cemehbl4
по желанию. Кто то вычитывает, кто то нет. Если исходный текст в нормальном качестве, то для поиска в принципе хватает и не вычитанного обычно.
|
|
cemehbl4
  Стаж: 15 лет 1 месяц Сообщений: 1352
|
cemehbl4 ·
02-Июн-14 00:12
(спустя 59 мин.)
SI{AY
Книгу я вычитал, я имею ввиду исходные опечатки в оригинальном тексте
|
|
SI{AY
 Стаж: 16 лет 11 месяцев Сообщений: 1318
|
SI{AY ·
02-Июн-14 00:21
(спустя 8 мин.)
вот честно не знаю. есть борцы что электронная книга должна макимально походить на бумадную. книги ради книг. а есть кто за произведения)
в общем если делается ocr для djvu то обычно делают чтоб текст соответствовал картинке.
в общем на ваш страх и риск все)
|
|
cemehbl4
  Стаж: 15 лет 1 месяц Сообщений: 1352
|
cemehbl4 ·
02-Июн-14 00:35
(спустя 14 мин.)
SI{AY
Спасибо за подсказку. Значит для PDF/DJVU сделаю с сохранением оригинального текста, а вот если руки дойдут до EPUB - тогда и исправлю
|
|
<Ra>
 Стаж: 15 лет 11 месяцев Сообщений: 164
|
<Ra> ·
02-Июн-14 23:58
(спустя 23 часа)
Здравствуйте!
У меня есть готовый пдф книга (отсканированные страницы). Мне нужно туда подшить слой текста (чтобы не нарушалась верстка книги, там много картинок). Подскажите, пожалуйста, как это сделать. Текст в ФР уже распознал.
|
|
cemehbl4
  Стаж: 15 лет 1 месяц Сообщений: 1352
|
cemehbl4 ·
03-Июн-14 00:56
(спустя 58 мин.)
<Ra>
Так в FineReader'е же выбираете - Оформление документа >>> Точная копия - соответственно картинки должны быть все выделены и стоять галка "Сохранять рисунки"
|
|
<Ra>
 Стаж: 15 лет 11 месяцев Сообщений: 164
|
<Ra> ·
03-Июн-14 01:58
(спустя 1 час 2 мин., ред. 03-Июн-14 01:58)
cemehbl4
Я так пробовал, но ФР портит картинки (у меня ноты там и они получаются в гораздо худшем качестве).
Я знаю, что как-то подшивают текст в пдф'ки, но не знаю как. Поэтому и прошу помощи.
|
|
rioter11
  Стаж: 17 лет 7 месяцев Сообщений: 1654
|
rioter11 ·
03-Июн-14 07:26
(спустя 5 часов)
Цитата:
Я так пробовал, но ФР портит картинки (у меня ноты там и они получаются в гораздо худшем качестве).
Настройки > Сохранить> PDF > Качество Изображения > выбрать Высокое качество (разрешение исходного изображения). + Сохранять рисунки.
Выложите одну страницу посмотреть для примера.
|
|
cemehbl4
  Стаж: 15 лет 1 месяц Сообщений: 1352
|
cemehbl4 ·
03-Июн-14 09:09
(спустя 1 час 43 мин.)
<Ra>
В настройках сохранения PDF качество зображений надо поставить по максимуму: 300 DPI и "потеря качества запрещена"
|
|
slava_kry
Стаж: 17 лет 10 месяцев Сообщений: 244
|
slava_kry ·
05-Июн-14 15:00
(спустя 2 дня 5 часов)
<Ra>
от Astra55 (ru-board)
Цитата:
1. Удалить текст из PDF с OCR слоем, используя только Acrobat:
- открыть файл в Acrobat - Preflight - Create PDF layer - Put all text object on a layer - сохранить под другим именем - Layers - выбрать текстовый слой - снять показ текстового слоя - Flatten Layers, сохранить PDF файл под другим именем. 2. Перенос OCR текста из FineReader в файл PDF:
- если был текстовый слой, см. п.1, если нет, открываем или создаем файл Image_layer.pdf, откуда, где и как - неважно;
- открываем Image_layer.pdf в FineReader, распознаем, подправляем, но без радикального изменения форматирования, сохраняем в PDF как "Текст под изображением страницы", сохраняя размер оригинала, под именем Image+Text_OCR.pdf;
- Открываем Image+Text_OCR.pdf в Acrobat - Preflight - Create PDF layer - Create separate layers for vector objects, text and images - сохраняем под другим именем Image+Text_OCR2.pdf - снимаем показ слоя Image, оставляя только слой Text - Flatten Layers, сохранить файл под именем Text_layer.pdf;
- Вариант А: Открываем в Acrobat файл Image_layer.pdf - Preflight - Create PDF layer - Put all image objects on layers - сохраняем под именем Image_layer2.pdf - Layers - Import as Layer... - открываем файл Text_layer.pdf - Add to existing layer - Order - Appear behind page - Flatten Layers, сохранить файл под именем Full.pdf.
- Вариант B: Одновременно открываем в Acrobat X c плагином Imposal файлы Image_layer.pdf и Text_layer.pdf, запускаем Imposal, выбираем Overlay... - Bottom file - Text_layer.pdf, Top file - Image_layer.pdf, отмечаем Use the bottom document once - Overlay. Разумеется, имена файлов выбираются по желанию, никакого волшебства в показанных примерах нет
Сам не пробовал, но ему доверяю.
|
|
<Ra>
 Стаж: 15 лет 11 месяцев Сообщений: 164
|
<Ra> ·
11-Июн-14 19:21
(спустя 6 дней)
Спасибо за ответы! Помогло. Я только начал заниматься обработкой книг и возникает много вопросов.
|
|
pwoerlkj
Стаж: 17 лет Сообщений: 98
|
pwoerlkj ·
19-Июн-14 11:44
(спустя 7 дней)
подскажите, пожалуйста, как можно сделать файлы, уже обработанные файл кромсатором, одинакового размера. спасибо
|
|
ka81
 Стаж: 18 лет 7 месяцев Сообщений: 1234
|
ka81 ·
20-Июн-14 13:00
(спустя 1 день 1 час)
Скажите, а есть ли какие-нибудь группы энтузиастов, которые (если им интересно) берутся за оцифровку предложенных им книг ?
|
|
DjVu-Master
 Стаж: 15 лет 1 месяц Сообщений: 6137
|
DjVu-Master ·
20-Июн-14 13:03
(спустя 3 мин.)
ka81 писал(а):
64315480Скажите, а есть ли какие-нибудь группы энтузиастов, которые (если им интересно) берутся за оцифровку предложенных им книг ?
Вы хотите дать книгу чтобы ее оцифровали?
Или у вас есть сканы этой книги и хотите чтобы их кто-то обработал?
|
|
ka81
 Стаж: 18 лет 7 месяцев Сообщений: 1234
|
ka81 ·
20-Июн-14 13:13
(спустя 10 мин.)
у меня есть полностью вся (по идее, насоклько я разузнал) в бумажном виде: Библиотека мировой литературы для детей
Москва
"Детская литература"
Опознавательный знак на обложке на торце сверху - на фоне глобуса стебель пшеницы
50 томов (некоторые тома иемют части)
визуально вот они - http://www.livelib.ru/series/4499#books
|
|
DjVu-Master
 Стаж: 15 лет 1 месяц Сообщений: 6137
|
DjVu-Master ·
20-Июн-14 13:16
(спустя 2 мин.)
|
|
ka81
 Стаж: 18 лет 7 месяцев Сообщений: 1234
|
ka81 ·
20-Июн-14 13:22
(спустя 6 мин.)
DjVu-Master писал(а):
64315601ka81
У вас сканер есть?

сканера нет, даже если бы и был - я посему и спрашиваю тут, ибо имеются (к сожалению) причины, по которым я лично не смог бы этим заниматься.
В общем, собственно вопрос - может где есть такие группы/форумы,.. кому можно предложиться на оцифровку такой вариант?..
|
|
|