Создание электронных книг из сканов: как получить DjVu или PDF из бумажной книги?

Страницы :   Пред.  1, 2, 3, 4, 5  След.
Ответить
 

aawaaw

Стаж: 15 лет 4 месяца

Сообщений: 514


aawaaw · 27-Июн-23 18:06 (1 год 4 месяца назад, ред. 27-Июн-23 18:06)

MakardiPro писал(а):
84888643то есть нижние (еще бывают часто верхние) индексы, все же являются текстом, подлежащем соответствующему распознаванию.
MakardiPro писал(а):
84888643Формулы математические и логические плохо понимает.
ну так вы так и говорите: нужно распознавать очень специальные тексты, плюс формулы. Это ж совсем другое дело.
Я слышал, недавно, но совсем не помню "где звон": есть (в смысле недавно появилась) прога, которая практически в 100% опознает формулы правильно. Только пишет результат в формат LaTex.
Советую заглянуть на руборду и поискать/поспрошать проги там. Не вы один такой.
MakardiPro писал(а):
84888643Не владеет юникодом почти.
не понял фразу. это как?
Да, и вопрос: зачем вообще распознавать текст среди нот?
23Wera23 писал(а):
84888689И что интересно - до этого никому нет дела, есть там ошибки или нету, об этом почти не говорят.

открою страшную тайну: на 4,5 млн человек Свердловской области, где я живу, есть единственная крупная библиотека с 2,5млн единиц хранения. С 1908, кажется, года существует. Так вот в формулярах более половины берущихся мной книг - а это не вполне популярные, но и не сверхузкоспециализированные книги! - как правило я - третий или даже первый "читатель". И я беру книги в диапазоне 1924-1994гг, когда нация считалась самой читающей. Книги просто не читают оттого и претензий к ошибкам нет.
[Профиль]  [ЛС] 

MakardiPro

Лауреат конкурса

Стаж: 6 лет 7 месяцев

Сообщений: 321

MakardiPro · 27-Июн-23 18:11 (спустя 5 мин.)

Цитата:
Я слышал, недавно, но совсем не помню "где звон": есть (в смысле недавно появилась) прога, которая практически в 100% опознает формулы правильно. Только пишет результат в формат LaTex.
Да, я когда искал, тоже находил нечто похожее, но это такая неудобная дрянь, тем более что она формулы скорее всего распознает вне текста, а мне нужно было В.
Цитата:
не понял фразу. это как?
Ну, тут штука вот какая.
Есть страница, например, из книжки по сложной логике или математике, где есть вот такие вот символы - ∑, ∀, ≠, ∧, ∅, ∉. Это математические, они же логические символы, которые есть уже аж с 90х в системе юникод. Я попытался распознать страничку с подобными - провал. Дошло до маразма - я просто пошел на этот же сайт, то есть сайт с юникод-символами, так как это именно они, скопировал оттуда нужны, вставил и... белый пустой квадрат. Файнридер 15, не умеет работать с символами юникода. Короче курам на смех. И из-за этого приходится откладывать распознавание в дальний ящик, потому что косяки сплошь и рядом и ниче ты с этим не поделаешь, только вручную исправлять, да и то - не всегда возможно, как в данном случае.
[Профиль]  [ЛС] 

aawaaw

Стаж: 15 лет 4 месяца

Сообщений: 514


aawaaw · 27-Июн-23 18:49 (спустя 37 мин.)

аа.
вроде бы раньше можно было научить ФР любым значкам.
[Профиль]  [ЛС] 

petoleg

Top Seed 02* 80r

Стаж: 17 лет 6 месяцев

Сообщений: 718

petoleg · 01-Июл-23 18:10 (спустя 3 дня, ред. 01-Июл-23 18:10)

MakardiPro писал(а):
А какие бы вы программы посоветовали чисто для обработки и качественного распознавания уже готовых сканов?
Иногда я распознаю чисто для своих целей книжки, все же распознанный векторный текст читать порой приятнее, нежели древний скан. В основном это касается книг, в которых есть еще масса "картинок" - ноты различные, схемы, какие-то другие нетекстовые элементы.
Так поищите тогда программу для распознания текста, а программу, которая переводит растр в вектор...
Что-то подобное делает Акробат в одном из вариантов оптимизации...
[Профиль]  [ЛС] 

slava_kry

Стаж: 17 лет 7 месяцев

Сообщений: 243


slava_kry · 25-Ноя-23 08:57 (спустя 4 месяца 23 дня)

Записал видео по обработке малоцвета своим способом, через CMYK.
Записал всю работу - потому видео длинное.
https://youtu.be/QstjHVFHl38?si=CI06INRFwwLYPb6V
[Профиль]  [ЛС] 

zheka_2013

Стаж: 14 лет 9 месяцев

Сообщений: 11


zheka_2013 · 03-Дек-23 05:57 (спустя 7 дней)

Здравствуйте. У меня есть англоязычное пособие H2S Alive (сероводород) для нефтедобывающей отрасли, но нет принтера, только телефон, какой программой лучше оцифровать? Я могу сделать фото в хорошем разрешении. Заранее спасибо.
[Профиль]  [ЛС] 

папаВлад

Top Loader 01* 100GB

Стаж: 13 лет 10 месяцев

Сообщений: 2456

папаВлад · 04-Дек-23 15:39 (спустя 1 день 9 часов)

zheka_2013
Сделайте на пробу 10 фоток, обрежьте ненужные края в любом графическом редакторе и соберите в готовый файл.
Где что не получается, или если что-то самому не понравилось, об этом и спросите, предварительно залив исходники и свой результат.
Если есть желание потратить время на удаление кривизны страниц, то попробуйте STE, но чуда не будет, и по времязатратам быстрее будет купить бэушный сканер и отсканировать.
[Профиль]  [ЛС] 

Ш-Cat

Стаж: 7 лет 2 месяца

Сообщений: 113

Ш-Cat · 03-Мар-24 20:13 (спустя 2 месяца 30 дней)

Кто-нибудь знает причину появления странных кракозяблей при создании Djvu?
[Профиль]  [ЛС] 

aawaaw

Стаж: 15 лет 4 месяца

Сообщений: 514


aawaaw · 03-Мар-24 21:29 (спустя 1 час 16 мин.)

Ш-Cat писал(а):
85964607Кто-нибудь знает причину появления странных кракозяблей при создании Djvu?
типичная "радиация" на сверхмелких объектах. неверное кодирование чб текста в фоне BG44.
[Профиль]  [ЛС] 

Ш-Cat

Стаж: 7 лет 2 месяца

Сообщений: 113

Ш-Cat · 04-Мар-24 00:24 (спустя 2 часа 54 мин.)

aawaaw писал(а):
85964946
Ш-Cat писал(а):
85964607Кто-нибудь знает причину появления странных кракозяблей при создании Djvu?
типичная "радиация" на сверхмелких объектах. неверное кодирование чб текста в фоне BG44.
Понятно, что ничего не понятно. Я думал, что в настройках программы нужно что-то покрутить.
А так, приходится с костылями всякими возиться.
[Профиль]  [ЛС] 

aawaaw

Стаж: 15 лет 4 месяца

Сообщений: 514


aawaaw · 04-Мар-24 06:05 (спустя 5 часов)

Ш-Cat писал(а):
85965562Я думал, что в настройках программы нужно что-то покрутить
а "я думал" что надо хотя бы название вашей программы получить.
+
вообще-то нужно и пример предоставить, на котором не получается, и подробный порядок ваших действий в программе. И, вероятно, её настройки. Чтоб получить такую лучистость - ещё надо постараться.
[Профиль]  [ЛС] 

Ш-Cat

Стаж: 7 лет 2 месяца

Сообщений: 113

Ш-Cat · 04-Мар-24 20:03 (спустя 13 часов)

Та я просто беру пачку jpeg и прогоняю через DjVu Small v0.4.4.
Чаще всё в идеале, но иногда случаются моменты.
[Профиль]  [ЛС] 

petoleg

Top Seed 02* 80r

Стаж: 17 лет 6 месяцев

Сообщений: 718

petoleg · 04-Мар-24 20:48 (спустя 45 мин., ред. 04-Мар-24 20:48)

Ш-Cat писал(а):
85968862Та я просто беру пачку jpeg и прогоняю через DjVu Small v0.4.4.
Чаще всё в идеале, но иногда случаются моменты.
Смотрите профиль кодирования.
Для ч\б надо выбирать "user B\W (600 dpi)"
[Профиль]  [ЛС] 

Ш-Cat

Стаж: 7 лет 2 месяца

Сообщений: 113

Ш-Cat · 04-Мар-24 20:58 (спустя 10 мин.)

Я выбираю Bitonal (600 dpi), а черно-белый режим "подгрызает" буквы.
[Профиль]  [ЛС] 

aawaaw

Стаж: 15 лет 4 месяца

Сообщений: 514


aawaaw · 04-Мар-24 21:05 (спустя 7 мин.)

Ш-Cat писал(а):
85968862Та я просто беру пачку jpeg
вот отсюда все ваши проблемы. так как джипег не может быть черно-белым.
подгоняйте чб тиффы в прогу.
[Профиль]  [ЛС] 

Ш-Cat

Стаж: 7 лет 2 месяца

Сообщений: 113

Ш-Cat · 04-Мар-24 21:27 (спустя 22 мин.)

Попробую с тиффом поэкспериментировать. Спасибо
[Профиль]  [ЛС] 

aawaaw

Стаж: 15 лет 4 месяца

Сообщений: 514


aawaaw · 04-Мар-24 21:30 (спустя 2 мин.)

угу.
только не надо тиффы получать из джипегов потому что в них останутся все цветовые прелести джипега. понизьте палитру до бинарной, это как минимум.
[Профиль]  [ЛС] 

Ш-Cat

Стаж: 7 лет 2 месяца

Сообщений: 113

Ш-Cat · 04-Мар-24 21:35 (спустя 5 мин.)

А что мне делать со страницами, на которых есть изображения?
Я же их в режиме Photo делаю, и на них тоже случаются кракозябли.
[Профиль]  [ЛС] 

aawaaw

Стаж: 15 лет 4 месяца

Сообщений: 514


aawaaw · 04-Мар-24 21:46 (спустя 11 мин.)

Ш-Cat писал(а):
85969277со страницами, на которых есть изображения?
методом разделенных сканов кодить. теория тут
https://www.djvu-soft.narod.ru/scan/djvu_imager.htm
[Профиль]  [ЛС] 

Ш-Cat

Стаж: 7 лет 2 месяца

Сообщений: 113

Ш-Cat · 04-Мар-24 21:50 (спустя 3 мин.)

aawaaw писал(а):
85969333
Ш-Cat писал(а):
85969277со страницами, на которых есть изображения?
методом разделенных сканов кодить. теория тут
https://www.djvu-soft.narod.ru/scan/djvu_imager.htm
Браузер не пускает туда, даже с VPN
[Профиль]  [ЛС] 

petoleg

Top Seed 02* 80r

Стаж: 17 лет 6 месяцев

Сообщений: 718

petoleg · 04-Мар-24 22:12 (спустя 21 мин., ред. 04-Мар-24 22:12)

aawaaw писал(а):
85969333
Ш-Cat писал(а):
85969277со страницами, на которых есть изображения?
методом разделенных сканов кодить. теория тут
https://www.djvu-soft.narod.ru/scan/djvu_imager.htm
Используется цепочка программ: Scan Tailor Featured -> DjVu Small v0.4 -> DjVu Imager v2.9
ЗЫ не знал что Scan Tailor Featured сам разбирает сканы на текст\картинки, я разбирал ST Split... У меня получается цепочка:
Scan Tailor Featured -> ST Split -> FSViewer -> OIS -> DjVu Small v0.4 -> DjVu Imager v2.9
Ш-Cat писал(а):
85969348
aawaaw писал(а):
85969333
Ш-Cat писал(а):
85969277со страницами, на которых есть изображения?
методом разделенных сканов кодить. теория тут
https://www.djvu-soft.narod.ru/scan/djvu_imager.htm
Браузер не пускает туда, даже с VPN
На предупреждение ответить - на свой риск хочу перейти...
[Профиль]  [ЛС] 

Gh@nz

Стаж: 17 лет 11 месяцев

Сообщений: 3344


Gh@nz · 05-Мар-24 00:44 (спустя 2 часа 32 мин.)

petoleg
Ничесе у вас цепочки. А в фотошопе обработать и собрать в СК?
[Профиль]  [ЛС] 

aawaaw

Стаж: 15 лет 4 месяца

Сообщений: 514


aawaaw · 05-Мар-24 01:25 (спустя 40 мин.)

Ш-Cat писал(а):
85969348Браузер не пускает туда, даже с VPN
в pdf отпечатал статью https://disk.yandex.ru/i/-9Uc_COWiVLzaA
[Профиль]  [ЛС] 

petoleg

Top Seed 02* 80r

Стаж: 17 лет 6 месяцев

Сообщений: 718

petoleg · 05-Мар-24 07:29 (спустя 6 часов, ред. 05-Мар-24 07:29)

Gh@nz писал(а):
85969926petoleg
Ничесе у вас цепочки. А в фотошопе обработать и собрать в СК?
Что Фотошоп, что СК не использую. Иногда. очень редко "вычитаю печати" в ФШ. СК - имхо писалось программистом для программистов... Как-то пытался разобраться (когда попалась русская версия), не дошло. Понятно что вместо ФШ модно испоользовать любой графический редактор. Лет надцать назад использовал Асидиси вместо ST. Поворот, обрезка, выделение картинок, инверсия, перевод в ч\б.
А так ничего лишнего.
Scan Tailor Featured -> ST Split -> FSViewer -> OIS -> DjVu Small v0.4 -> DjVu Imager v2.9
Scan Tailor Featured - резка сканов
FSViewer - проверка резки\деления, вшивание "Маде ин...", чистка больших пятен, клонирование букв\кусков.
ST Split - деление на слои
OIS при необходимости чистка фона, выравнивание цветов (стандартная в Микро-Офисе)
DjVu Small v0.4 - кодирование текста
DjVu Imager v2.9 - кодирование картинок и сшивка в один файл с картинками
[Профиль]  [ЛС] 

SI{AY

Стаж: 16 лет 7 месяцев

Сообщений: 1246

SI{AY · 05-Мар-24 07:37 (спустя 7 мин.)

petoleg писал(а):
85970569писалось программистом для программистов
опять эта мантра. в SK Надо просто четко знать что ты хочешь делать. Ничто не является обязательным. любой шаг самодостаточен. Но для создания DjVu на выходе - есть ряд требований.
Самая логичная последовательность в SK для получения DjVu описана у aawaaw в роликах. Даже схема нарисована и объясняется что к чему https://youtu.be/BQXBbtIx43M?t=209 (ссылка с привязкой ко времени)
[Профиль]  [ЛС] 

Ш-Cat

Стаж: 7 лет 2 месяца

Сообщений: 113

Ш-Cat · 05-Мар-24 14:25 (спустя 6 часов)

О, так есть видосики? Отлично.
[Профиль]  [ЛС] 

Gh@nz

Стаж: 17 лет 11 месяцев

Сообщений: 3344


Gh@nz · 05-Мар-24 16:52 (спустя 2 часа 27 мин.)

petoleg
Понятно конечно, что каждому свое.
Я до книг еще не добрался, пока только с отдельными скаными вожусь, но всегда удивлялся - зачем использовать кучу разных отдельных инструментов, когда есть ФШ все в одном и даже больше. Упаковка конечно не в счет.
[Профиль]  [ЛС] 

petoleg

Top Seed 02* 80r

Стаж: 17 лет 6 месяцев

Сообщений: 718

petoleg · 05-Мар-24 22:37 (спустя 5 часов, ред. 05-Мар-24 22:37)

SI{AY писал(а):
85970610
petoleg писал(а):
85970569писалось программистом для программистов
опять эта мантра. в SK Надо просто четко знать что ты хочешь делать. Ничто не является обязательным. любой шаг самодостаточен. Но для создания DjVu на выходе - есть ряд требований.
Самая логичная последовательность в SK для получения DjVu описана у aawaaw в роликах. Даже схема нарисована и объясняется что к чему https://youtu.be/BQXBbtIx43M?t=209 (ссылка с привязкой ко времени)
Эта самая логическая последовательность в SK ничем не отличается от логической последовательности в ST, фотошопе, Гимпе и т.д.
На входе имеем сырой скан, на выходе готовый к сжатию или уже сжатый скан. Инструменты для промежуточных операций могут быть любые...
Так для программистов и писалось. Сравни интерфейс Тейлора и Кромсатора. Сколько надо времени, что-бы человек научился резать книги в Тейлоре и сколько бросит людей это дело не дойдя до конца в Кромсаторе... Кто-бы возражал что Кромсатор мощная программа... Она может переварить экранки с дисков "В помощь первокурснику" начала 2000-х и выдать приемлемый вариант... Может напрямую импортировать PDF\Djvu... Но откуда я знаю что такое написано на рiднiй английской мове...
Gh@nz писал(а):
85972514petoleg
Понятно конечно, что каждому свое.
Я до книг еще не добрался, пока только с отдельными скаными вожусь, но всегда удивлялся - зачем использовать кучу разных отдельных инструментов, когда есть ФШ все в одном и даже больше. Упаковка конечно не в счет.
У вас стоит Фотошоп, официально купленный? И сколько из его возможностей вы используете?
[Профиль]  [ЛС] 

aawaaw

Стаж: 15 лет 4 месяца

Сообщений: 514


aawaaw · 06-Мар-24 04:23 (спустя 5 часов)

petoleg писал(а):
85973928На входе имеем сырой скан, на выходе готовый к сжатию или уже сжатый скан
в том и дело, что СК работает иначе.
[Профиль]  [ЛС] 

SI{AY

Стаж: 16 лет 7 месяцев

Сообщений: 1246

SI{AY · 06-Мар-24 08:06 (спустя 3 часа, ред. 06-Мар-24 08:06)

Gh@nz писал(а):
85972514когда есть ФШ все в одном и даже больше.
ФШ мне тоже нравится. Но в нем надо больше телодвижений, так как он заточен под другое. Плюс надо больше вникать и понимать в то что делаешь. Ну и с ним подольше. так как записанные операции всё равно применяются не так быстро. Но когда надо более менее причесать, чтоб не сырые сканы сувать в PDF, очень разношерстные, типа журналы и тд, за счёт плагинов в ФШ это можно сделать быстрее. Но если мы хотим полноценно бинаризовать, с выделением иллюстраций и тд в ФШ это будет пожалуй подольше (опыт конечно во всём решает).
Но посмотреть в плане обработки книг тоже есть что. https://www.youtube.com/playlist?list=PLtX2JBh28dABhvKs2ae3P0bod31I_dMWO но для начала лучше посмотреть
Код:
Зинаида Лукьянова | Фотошоп с нуля в видеоформате 3.0 (2015) PCRec [H.264/720p]
petoleg писал(а):
85973928Эта самая логическая последовательность в SK ничем не отличается от логической последовательности в ST, фотошопе, Гимпе и т.д.
это вам кажется только) так как не вникали. В SK можно пойти разными путями в зависимости от ситуации. Так же он хорош как раз мощностью, что только им одним можно сделать почти всё что нужно не переключаясь на другой софт.
petoleg писал(а):
85973928Но откуда я знаю что такое написано на рiднiй английской мове...
даже в бородатые года к нему была инструкция. + тут же в закрепах от twdragon еще, с нее когда то и начинал знакомство. Но SK позволяет разными путями пойти, а в ST есть строгий маршрут и ни шагу в сторону.
Мне когда то хватает одного ST, когда то только SK, иногда кромсаю в SK/ST, а картинки довожу потом в ФШ.
[Профиль]  [ЛС] 
 
Ответить
Loading...
Error