Создание электронных книг из сканов: как получить DjVu или PDF из бумажной книги?

Страницы :   Пред.  1, 2, 3, 4, 5
Ответить
 

aawaaw

Стаж: 15 лет 4 месяца

Сообщений: 514


aawaaw · 30-Май-24 09:37 (5 месяцев 17 дней назад)

геморройный примерчик.
попробуйте sharpen, радиус единичка, сила 20. Видимо, надо компенсировать через enhance contour. иначе больно уж тонко выходит:
https://disk.yandex.ru/d/BixZBWwP3aQIYg
и я ставил защиту бледных перемычек у "н" (special\protect). Плюс 15 к порогу.
Естественно, нужна и коррекция освещенности. CIS же.
[Профиль]  [ЛС] 

MakardiPro

Лауреат конкурса

Стаж: 6 лет 7 месяцев

Сообщений: 321

MakardiPro · 30-Май-24 13:39 (спустя 4 часа)

aawaaw писал(а):
86322124геморройный примерчик.
попробуйте sharpen, радиус единичка, сила 20. Видимо, надо компенсировать через enhance contour. иначе больно уж тонко выходит:
https://disk.yandex.ru/d/BixZBWwP3aQIYg
и я ставил защиту бледных перемычек у "н" (special\protect). Плюс 15 к порогу.
Естественно, нужна и коррекция освещенности. CIS же.
Вообще я делал и sharpen и enchance contour, и даже вроде защиту на перемычки тыркал, но видимо настройки не очень удачные подбирал. Даже иллюминацию наруливал с контрастом немного - все равно фильтр съедал сильно.
Вы на сколько ставили Ч\Б? На какое значение? (у меня на кастоме от 150 до 220, по разному бывает, в среднем где-то 170-180 ставлю)
Я еще обычно ставлю Lin градиент от 0 до 10 максимум, но тут он не особо помогал.
[Профиль]  [ЛС] 

aawaaw

Стаж: 15 лет 4 месяца

Сообщений: 514


aawaaw · 30-Май-24 13:55 (спустя 15 мин., ред. 30-Май-24 13:55)

MakardiPro писал(а):
86322870Вы на сколько ставили Ч\Б? На какое значение?
auto.
MakardiPro писал(а):
86322870видимо настройки не очень удачные подбирал. Даже иллюминацию наруливал с контрастом немного - все равно фильтр съедал сильно.
поэтому и говорят, что сканить надо на 600. на 300 перемычка бледнеет, усредняясь с фоном.
[Профиль]  [ЛС] 

MakardiPro

Лауреат конкурса

Стаж: 6 лет 7 месяцев

Сообщений: 321

MakardiPro · 30-Май-24 14:22 (спустя 27 мин.)

aawaaw писал(а):
поэтому и говорят, что сканить надо на 600. на 300 перемычка бледнеет, усредняясь с фоном.
Да понятно, чего уж. Я б с радостью, но это очень долго. Специально придуманные только для этого сканеры-то сканируют не очень уж шустро, а что говорить про сканер, встроенные в принтер (хотя чего, у меня скорость скана при 600 тоже серым где-то секунд 11 что-ли, именно чисто сканирования)
В любом случае я по вашему совету покрутил настройки, энханс контуров сделал - результат в целом хороший получается, правда так и не нашел нигде защиту на перемычки - по настройкам полазил так и не увидел именно этот пункт.
[Профиль]  [ЛС] 

aawaaw

Стаж: 15 лет 4 месяца

Сообщений: 514


aawaaw · 30-Май-24 14:26 (спустя 3 мин.)

MakardiPro писал(а):
86323006не нашел нигде защиту на перемычки

тессеракт понадобится.
[Профиль]  [ЛС] 

MakardiPro

Лауреат конкурса

Стаж: 6 лет 7 месяцев

Сообщений: 321

MakardiPro · 30-Май-24 14:38 (спустя 11 мин.)

aawaaw писал(а):
86323016
MakardiPro писал(а):
86323006не нашел нигде защиту на перемычки

тессеракт понадобится.
Хм, так, значит надо теперь еще за тессерактом идти. Ну заодно и версию кромсатора обновлю.
(Хотя, справедливости ради, я все таки добился неплохих результатов, в самом деле надо было больше всего с контурами поработать, за подсказки огромное спасибо!)
[Профиль]  [ЛС] 

aawaaw

Стаж: 15 лет 4 месяца

Сообщений: 514


aawaaw · 30-Май-24 14:43 (спустя 5 мин.)

MakardiPro писал(а):
86323040надо теперь еще за тессерактом идти. Ну заодно и версию кромсатора обновлю
все необходимое - в шапке ветки СК руборды.
MakardiPro писал(а):
86323040за подсказки огромное спасибо!
пожалуйста. и я хоть потренировался. непросто было.
[Профиль]  [ЛС] 

Gh@nz

Стаж: 17 лет 11 месяцев

Сообщений: 3344


Gh@nz · 30-Май-24 14:44 (спустя 49 сек.)

MakardiPro
Вы конечно извините, но если изначально сканить в качество, то и добиваться "неплохих результатов" не придется.
Ну, а так... пофотайте на телефон и потом обработайте, еще интересней будет.
[Профиль]  [ЛС] 

MakardiPro

Лауреат конкурса

Стаж: 6 лет 7 месяцев

Сообщений: 321

MakardiPro · 30-Май-24 14:46 (спустя 2 мин.)

Gh@nz писал(а):
86323065MakardiPro
Вы конечно извините, но если изначально сканить в качество, то и добиваться "неплохих результатов" не придется.
Ну, а так... пофотайте на телефон и потом обработайте, еще интересней будет.
Кстати говоря, я пробовал фотографировать одну книгу на телефон, камера у меня неплохая, но в итоге получилось, мягко говоря, так себе, потому что там миллион условий не сошлись - фотографировал из библиотеки, где создать условия для нормального фото это та еще задачка, так что этот опыт получился провальным. Да и качество обработки тоже так себе получалось.
[Профиль]  [ЛС] 

Gh@nz

Стаж: 17 лет 11 месяцев

Сообщений: 3344


Gh@nz · 30-Май-24 14:49 (спустя 2 мин.)

MakardiPro
Я знаю, поэтому и был сарказм.
[Профиль]  [ЛС] 

MakardiPro

Лауреат конкурса

Стаж: 6 лет 7 месяцев

Сообщений: 321

MakardiPro · 30-Май-24 15:45 (спустя 56 мин.)

Gh@nz
оффтоп
Ну, в таком случае я, видимо, слишком летаю в мечтах)) - искал в интернетах методики фотоскана при помощи фотоаппаратов-мыльниц, но посмотрев, насколько это все же замороченная схема, подумал - да ну его нафиг, уж больно много мороки, проще тогда уж на планшетнике сканировать да и все.
Тем более, что поэкспериментировав с откручиванием прижимной крышки удалось все сделать как нужно.
[Профиль]  [ЛС] 

SI{AY

Стаж: 16 лет 7 месяцев

Сообщений: 1246

SI{AY · 30-Май-24 18:25 (спустя 2 часа 40 мин., ред. 30-Май-24 18:25)

Gh@nz писал(а):
86323065Ну, а так... пофотайте на телефон и потом обработайте, еще интересней будет.
ну к слову художка на телефон - sk - файнридер. вполне себе норм. Даже вычитывать по минимуму. Главное чтоб освещение было норм и шрифт не оч мелкий. Но в целом непригодно для нормального использования. Тут более чем исчерпывающе на данную тему.
MakardiPro писал(а):
86318632которые выглядят таким образом - архив с кучей SVG файлов, которые можно открыть только в бразуере
Ну и в наш век не уверен что можно считать размер проблемой. В угоду качеству вполне себе.
По вашей ссылке на 300 страниц ~100мб. В качественном Djvu примерно так же выходит. Например БСЕ - 700страниц = ~200Мб )
А Вы чем переводили Svg в pdf ?
[Профиль]  [ЛС] 

MakardiPro

Лауреат конкурса

Стаж: 6 лет 7 месяцев

Сообщений: 321

MakardiPro · 30-Май-24 19:39 (спустя 1 час 13 мин., ред. 30-Май-24 19:39)

SI{AY писал(а):
MakardiPro писал(а):
86318632которые выглядят таким образом - архив с кучей SVG файлов, которые можно открыть только в бразуере
Ну и в наш век не уверен что можно считать размер проблемой. В угоду качеству вполне себе.
По вашей ссылке на 300 страниц ~100мб. В качественном Djvu примерно так же выходит. Например БСЕ - 700страниц = ~200Мб )
А Вы чем переводили Svg в pdf ?
pdf24.org
Еще раз про принцип конверсии, я его зачем-то написал, но пусть уж будет
Чуть выше я описывал общий принцип, но если еще раз повторять - SVG конвертируем в PDF, а потом PDF в TIFF, тифы, в свою очередь, в дежавю.
Просто программа PDF-Xchange Editor Plus (как раз свеженький релиз) очень хорошо конвертирует любые векторные PDF в нужные картинки, я нигде в специальных программах типа Total Image Converter такого хорошего качества не встречал. Да, может немного дольше, но и качество значительно выше. Да и конверсия SVG оказалась довольно проблематичной - трудно найти реально хорошие конвертеры, а тут, пусть и вот таким обходным путем - прекрасно получается.
Вот например моя последняя раздача выполнена как раз по этой технологии и с учетом того дежавю кодера, что вы подсказали - работает отлично, мне нравится.
(Ну и, говоря про место и память - все таки не все, думаю, читают книги с ПК или ноутбука, где памяти завались, а вот если с какого-нибудь старенького планшета, то там уже проблематично. Мне, например, не хватает места под пачку таких книг по 150 мб, тем более, что ущерб качеству несущественный, как по мне. Так что такая конверсия в дежавю здесь не лишняя.)
[Профиль]  [ЛС] 

Burn in

Стаж: 12 лет 10 месяцев

Сообщений: 7171

Burn in · 30-Май-24 20:38 (спустя 59 мин.)

По моим впечатлениям, из фото с телефона вполне себе можно делать сканы. Главный минус - геометрические искажения таких фото.
[Профиль]  [ЛС] 

petoleg

Top Seed 02* 80r

Стаж: 17 лет 6 месяцев

Сообщений: 718

petoleg · 30-Май-24 20:45 (спустя 6 мин.)

MakardiPro писал(а):
86323006
aawaaw писал(а):
поэтому и говорят, что сканить надо на 600. на 300 перемычка бледнеет, усредняясь с фоном.
Да понятно, чего уж. Я б с радостью, но это очень долго. Специально придуманные только для этого сканеры-то сканируют не очень уж шустро, а что говорить про сканер, встроенные в принтер (хотя чего, у меня скорость скана при 600 тоже серым где-то секунд 11 что-ли, именно чисто сканирования)
Питань нема....
У меня сканировать журналы выходит порядка минуты на страницу... И я не считаю что это шибко долго...
[Профиль]  [ЛС] 

Gh@nz

Стаж: 17 лет 11 месяцев

Сообщений: 3344


Gh@nz · 02-Июн-24 08:17 (спустя 2 дня 11 часов)

SI{AY
Нормы у всех разные
[Профиль]  [ЛС] 

aawaaw

Стаж: 15 лет 4 месяца

Сообщений: 514


aawaaw · 02-Июн-24 14:05 (спустя 5 часов, ред. 02-Июн-24 14:05)

MakardiPro писал(а):
86323976если еще раз повторять - SVG конвертируем в PDF, а потом PDF в TIFF, тифы, в свою очередь, в дежавю.
помнил, что где-то у меня было решение для svg.
нашёл наконец батничек, там всего одна, по сути, строка:
for /r . %%i in (*.svg) do magick -size 4000x4000 %%i t\%%~ni.png
Требует установки в систему Image Magick.
Правда, мне не нравится результат но, наверное, можно поиграться с размерами в size.
upd
библиотека resvg вообще прекрасно всё делает. и вьювер есть, и консоль.
[Профиль]  [ЛС] 

SI{AY

Стаж: 16 лет 7 месяцев

Сообщений: 1246

SI{AY · 09-Июн-24 11:15 (спустя 6 дней)

Gh@nz
ну вес это не проблема. Проблема PDF собранного из векторных букв, где каждая буква path, как выяснилось, больше в том, что некоторые просмотрщики от этого очень офигевают. И cs тут адекватно не делается. хотя было бы логично, что вот уже есть готовые векторные символы, возьми да сделай шрифт, но сегментатор не умеет такой случай определять так что да, похоже тут единственный путь через растеризацию
[Профиль]  [ЛС] 

папаВлад

Top Loader 01* 100GB

Стаж: 13 лет 10 месяцев

Сообщений: 2456

папаВлад · 11-Июн-24 04:38 (спустя 1 день 17 часов)

MakardiPro писал(а):
86318632Собственно, если покопаться, то можно найти информацию, что можно просто в каком-нибудь Adobe Acrobat просто сделать распознавание OCR и применить ClearScan, чтобы символы были такие-же векторные, но еще и с распознаванием.
Но размер-то все равно никуда не уйдет.
Как раз размер файла после CS очень заметно похудеет. Возможно не разобрались как запустить сам процесс ClearScan, на старых версиях Акробата (до 11.0.23) в выборе распознавания метод указан своим именем, а на новых акробатах сразу непонятно, что в настройках распознавания нужно выбрать последний пункт.
SI{AY писал(а):
86357470Проблема PDF собранного из векторных букв, где каждая буква path, как выяснилось, больше в том, что некоторые просмотрщики от этого очень офигевают. И cs тут адекватно не делается.
Смотря в какой версии делать cs, новый акробат (после 11.0.23) делает весьма не дурно и лучше старого (ниже прикреплю сравнение), а если применить хитрость, то старая версия больше порадует.
Хитрость - в PDF-XChange Editor увеличиваем размер всех страниц на 400%, сохраняем, делаем в акробате ClearScan, затем в PDF-XChange убавляем до 25%, соответственно вернулись к оригинальному размеру. Изменение размера происходит без пересжатия, так искусственно изменяем DPI внутри пдф, но ClearScan на выходе получается более вкусным, буквы тоньше, косяков меньше.
На мой вкус старый акробат даёт лучший результат, допустим новый все горизонтальные линии отправляет в картинку, а старый в вектор, на иллюстрациях новый что-то странное делает, DPI делает огромный, соответственно и размер в килобайтах больше, а на вид выглядят одинаково со старым. Возможно кто-то заметит ещё какие косяки, залил готовые результаты, образец взят по ссылке MakardiPro.
Если по уму, то передней обложке не нужен CS, просто ради теста делал все распознавания на полный файл.
Не подумайте, что для случаев с конвертацией из SVG призываю к методу ClearScan как единственно правильному, он есть и надо знать его плюсы и минусы, а далее пусть будет выбор за оцифровщиком.
[Профиль]  [ЛС] 

malshin

Стаж: 17 лет

Сообщений: 1243


malshin · 11-Июн-24 14:11 (спустя 9 часов)

Цитата:
новый акробат (после 11.0.23) делает весьма не дурно и лучше старого
Зато он чаще, чем старые тупо не может распознать страницы, которые старыми версиями "щелкались влет". Типа "неизвестная ошибка" - и вали от меня.
[Профиль]  [ЛС] 

SI{AY

Стаж: 16 лет 7 месяцев

Сообщений: 1246

SI{AY · 12-Июн-24 13:17 (спустя 23 часа, ред. 12-Июн-24 13:17)

папаВлад
про задрать DPI не подумал что то, и в результате на выходе была ужасная каша. Не часто приходится непосредственно PDF ковырять а не из сканов что то готовить.
Спасибо за готовый пример того что получилось
скрытый текст
собственно источник тех SVG это непосредственно сайт юрайт. там если просматривать книжки онлайн, то тебе отдаются в большинстве случаев как раз SVG (иногда png). т.е. непосредственно PDF они вроде не продавали раньше, была либо аренда с просмотром онлайн, либо покупка печатного издания.
[Профиль]  [ЛС] 

psikov

Стаж: 14 лет 4 месяца

Сообщений: 66


psikov · 07-Сен-24 12:50 (спустя 2 месяца 24 дня)

Описанный здесь ScanKromsator v5.92 и альтернатива ScanTailor - это ведь далеко не новые уже программы... Вы до сих пор ими пользуетесь? Может быть теперь уже стоит использовать что-то более современное...
[Профиль]  [ЛС] 

папаВлад

Top Loader 01* 100GB

Стаж: 13 лет 10 месяцев

Сообщений: 2456

папаВлад · 07-Сен-24 19:35 (спустя 6 часов)

psikov
Для книгоделов эти программы основные, есть ещё вспомогательные, но сейчас не о них речь.
Что-то из этих двух нужно освоить, лучше попробовать обе программы, к чему рука потянется, то и изучить плотнее.
Сканкромсатор обновляется.
Классический Скантейлор не обновляется, но появились модификации и они самодостаточные для обработки сканов, модов несколько, на вкус и цвет, кому что ближе к телу.
[Профиль]  [ЛС] 

petoleg

Top Seed 02* 80r

Стаж: 17 лет 6 месяцев

Сообщений: 718

petoleg · 12-Сен-24 10:46 (спустя 4 дня)

psikov писал(а):
86675632Описанный здесь ScanKromsator v5.92 и альтернатива ScanTailor - это ведь далеко не новые уже программы... Вы до сих пор ими пользуетесь? Может быть теперь уже стоит использовать что-то более современное...
Добровольцу и лопату в руки...
[Профиль]  [ЛС] 

Ш-Cat

Стаж: 7 лет 2 месяца

Сообщений: 113

Ш-Cat · 01-Ноя-24 20:59 (спустя 1 месяц 19 дней)

Проблема "радиации" в Djvu файлах оказалась мифом.
Точнее результатом некорректной работы STDU Viewer.
[Профиль]  [ЛС] 
 
Ответить
Loading...
Error