|
slava_kry
Стаж: 17 лет 7 месяцев Сообщений: 243
|
slava_kry ·
15-Дек-22 20:47
(1 год 11 месяцев назад)
папаВлад писал(а):
Совсем пропало доверие к Jpeg2000, но всё же интересно, что за находка с алгоритмом в DjVuToy? У меня есть пару коллег, которым лень делать долгие пдф, потому шлёпают тормознутые пдф из DjVuToy, им бы пригодился несложный совет.
Доверие... недоверие. Это-то тут причём?
Формат J2K перестали вылизывать, потому как списали в утиль, но другого-то нет. В джепеге будет, как минимум, в два раза больше.
Будет ли Адоба работать дальше над форматом ПДФ - вот вопрос.
Появился новый кодек AV1. Может его внедрят в ПДФ... Ещё сильнее сжимает чем J2K.
...Нет несложных советов. Я же написал - "бодрее открывается" по сравнению с Какаду. Это всё. Никаких секретов нет.
|
|
SI{AY
Стаж: 16 лет 7 месяцев Сообщений: 1246
|
SI{AY ·
16-Дек-22 09:28
(спустя 12 часов)
папаВлад писал(а):
84039148затем из второго удаляю картинки и вставляю их из пдф DSMod
там же есть настройки как жать картинки, как мне помнится.
папаВлад писал(а):
84039148А какой последний
всегда можно на сайте у китайца глянуть если что. ну и ссылка у него всегда одна где хранятся программы.
slava_kry писал(а):
84041311В джепеге будет, как минимум, в два раза больше.
это если совсем не жать? вроде jpeg2000 на одном качестве, даже по заявлениям авторов, дает до 20% выигрыш. Сильнее жать можно только высококонтрастное, иначе мыло появляется.
slava_kry писал(а):
84041311Будет ли Адоба работать дальше над форматом ПДФ - вот вопрос.
ну pdf еще же и контейнер, по идее запихать внутрь можно что угодно, лишь читалка поддерживала. Те же WebP и BPG выглядят интересно.
Еще есть арифметический jpeg, патенты на который уже закончились. Перевод обычных Jpeg на него произошел бы без каких либо потерь но чисто на перекодировании выигрыш был бы 20-30 процентов. Но браузеры его так и не умеют.
Много вариантов интересных есть. Только вот не думаю что адоб прям сильно интересует стремление к уменьшению размера.
папаВлад писал(а):
84039148Совсем пропало доверие к Jpeg2000
Да при чем тут доверие, просто есть особенности.
|
|
slava_kry
Стаж: 17 лет 7 месяцев Сообщений: 243
|
slava_kry ·
16-Дек-22 20:15
(спустя 10 часов)
SI{AY писал(а):
84043093это если совсем не жать? вроде jpeg2000 на одном качестве, даже по заявлениям авторов, дает до 20% выигрыш. Сильнее жать можно только высококонтрастное, иначе мыло появляется.
Мыло-то появляется, но чтобы его увидеть нужно увеличивать до 800%
Я потому и ратую за 600 дпи и сильное сжатие... А джепег на подобном сжатии всё превращает в квадратики. Для него это неизбежность.
У J2K два же "метода" сжатия и вот именно Какаду на "размытии" и сжимает сильнее всего при визуальном совершенстве. Другие кодеры так не могут. Только фотошоп позволяет выбрать каким методом сжимать...
Слишком давно мы эти опыты проводили... после них Болега и подключил Какаду к СК.
У дежавю кодер деликатней, но настроек там... никакой товарищ осиливать не будет.
|
|
slava_kry
Стаж: 17 лет 7 месяцев Сообщений: 243
|
slava_kry ·
22-Дек-22 06:42
(спустя 5 дней)
Второе видео по сборке книг.
На этот раз книга с гравюрами и её обработка.
https://www.youtube.com/watch?v=gWYJunLHmj8
|
|
slava_kry
Стаж: 17 лет 7 месяцев Сообщений: 243
|
slava_kry ·
25-Дек-22 17:02
(спустя 3 дня)
Нечаянно ещё видео о обработке уже сильно сжатого... Журналы Радио.
https://www.youtube.com/watch?v=jweT4YQr66c
|
|
SI{AY
Стаж: 16 лет 7 месяцев Сообщений: 1246
|
SI{AY ·
27-Дек-22 19:09
(спустя 2 дня 2 часа, ред. 27-Дек-22 19:09)
slava_kry писал(а):
84045629А джепег на подобном сжатии
я потому и сказал, что готов пожертвовать этими самыми 20% лишнего объема)
|
|
petoleg
Стаж: 17 лет 6 месяцев Сообщений: 718
|
petoleg ·
01-Янв-23 17:55
(спустя 4 дня)
ИМХО Овчинка выделки не стоит. Проще пересканировать заново.
ИМХО 2. Большая часть из находящегося в Сети и сделанного года этак до 2015 требует пересканирования. Даже если это PDF распространявшиеся самими редакциями.
|
|
Mags2020
Стаж: 4 года 9 месяцев Сообщений: 33
|
Mags2020 ·
02-Янв-23 19:29
(спустя 1 день 1 час)
slava_kry писал(а):
Я потому и ратую за 600 дпи и сильное сжатие (в J2K)
Слава, ваши работы опережают время лет на десять-двадцать. А сегодня на компах простых работяг выглядят дискредитацией формата PDF
|
|
petoleg
Стаж: 17 лет 6 месяцев Сообщений: 718
|
petoleg ·
03-Янв-23 18:40
(спустя 23 часа)
slava_kry писал(а):
84045629
SI{AY писал(а):
84043093это если совсем не жать? вроде jpeg2000 на одном качестве, даже по заявлениям авторов, дает до 20% выигрыш. Сильнее жать можно только высококонтрастное, иначе мыло появляется.
Мыло-то появляется, но чтобы его увидеть нужно увеличивать до 800%
Я потому и ратую за 600 дпи и сильное сжатие... А джепег на подобном сжатии всё превращает в квадратики. Для него это неизбежность.
Может я не догоняю, но какая может быть разница в качестве изображения между контейнером-PDF со сжатием картинки в J2k и Djvu, где J2k является изначальным типом кодирования цветного изображения при одинаковых исходных изображениях... Концептуально... Не учитывая в Djvu наличие ч\б маски... Пользуясь терминологией Djvu solo режим Foto против графического PDF со сжатием J2k в максимальном качестве.
Предлагать пощупать ручками кромсатор - не предлагать.
|
|
aawaaw
Стаж: 15 лет 4 месяца Сообщений: 514
|
aawaaw ·
03-Янв-23 20:23
(спустя 1 час 43 мин.)
petoleg
алгоритмы кодеков почитайте. Там вариативность решения задается прямо в описании стандарта. В одном кодеке так решили, в другом эдак. Результат, видимый, отличается. И смысла на максимальном качестве сравнивать нету - пределом будет исходный тифф.
В б-ке Ершова truf писал, что попробовал реализовать свой многостраничный кодер дежавю (minidjvu_mod), и в итоге он даже близко не приближается к кодеру от лизардтеха. Либо то же сжатие по размеру, но хуже замены букв (различимость сходных глифов), либо идентичность по заменам, но тогда размер на 20-50% больше. Суть в чем? В применённых алгоритмах. Так и с j2k.
|
|
slava_kry
Стаж: 17 лет 7 месяцев Сообщений: 243
|
slava_kry ·
04-Янв-23 07:39
(спустя 11 часов)
petoleg писал(а):
84117640...Пользуясь терминологией Djvu solo режим Foto против графического PDF со сжатием J2k в максимальном качестве...
Это ваша ошибка.
Мы работаем на пределе сжатия!!! Т.е. ещё чуть-чуть и всё "посыпится"...
Что и видно из моего поста выше
Из-за этого же проявляется разность кодирования и последствия для отображения.
Какаду в Акробате отображается медленнее, чем собственный кодек Акробата или переработка Дежавютой.
Внутренняя структура кодирования разная, параметры кодирования разные - результат работы разный.
|
|
petoleg
Стаж: 17 лет 6 месяцев Сообщений: 718
|
petoleg ·
05-Янв-23 02:02
(спустя 18 часов)
slava_kry писал(а):
84119213
petoleg писал(а):
84117640...Пользуясь терминологией Djvu solo режим Foto против графического PDF со сжатием J2k в максимальном качестве...
Это ваша ошибка.
Мы работаем на пределе сжатия!!! Т.е. ещё чуть-чуть и всё "посыпится"...
Вы - возможно. А смысл?.. Что-бы еще чуть-чуть меньше?
Или относительно большой размер при минимальном времени обработки, или минимальный размер при фактически перенаборе книг.
Это про обработку расшитых Djvu.
Цитата:
Из-за этого же проявляется разность кодирования и последствия для отображения.
Какаду в Акробате отображается медленнее, чем собственный кодек Акробата
Так кодирование в Jpg2000 кодером Какаду, кодирование кодером Акробата или же отображение Jpg2000 в Акробате?
Цитата:
или переработка Дежавютой.
Внутренняя структура кодирования разная, параметры кодирования разные - результат работы разный.
Как раз внутренняя структура одинаковая и определяется стандартами на Jpg2000 (к тому-же часто пересматриваемыми. Последняя редакция - 19-го года):
"TU-T Recommendation T.800 (2002) | ISO/IEC 15444-1:2004, Information technology – JPEG 2000 image coding system: Core coding system.
– ITU-T Recommendation T.801 (2002) | ISO/IEC 15444-2:2004, Information technology – JPEG 2000 image coding system: Extensions.
– ITU-T Recommendation T.803 (2002) | ISO/IEC 15444-4:2004, Information technology – JPEG 2000 image coding system: Conformance testing.
– ITU-T Recommendation T.804 (2002) | ISO/IEC 15444-5:2003, Information technology – JPEG 2000 image coding system: Reference software"
Другое дело что при одном исходном файле при кодировании кодировщиками различных программ\фирм размер выходного файла и качество визуальной оценки результатов кодирования будут отличаться. Аналогично и при кодировании одним кодировщиком при разных коэффициентах сжатия (качества). Да и тот же Какаду не полностью реализует стандарт кодирования.
|
|
potter7books
Стаж: 15 лет 6 месяцев Сообщений: 96
|
potter7books ·
04-Фев-23 19:23
(спустя 30 дней)
Привет всем!
Оцифровываю книгу, в ней страницы с обычным текстом (то есть на выходе битмап), но! на каждой странице есть две цветные полоски над нумерацией. Хочу их сохранить и вот думаю, что делать. Если применить режим с индексированными цветами (добавляю к белому и черному третий цвет в Фотошопе), итоговый размер книги увеличивается в 4 раза с более-менее приемелмых 20-25 мб до 80-90мб. Сжатие LZW. Есть какие-нибудь способы уменьшить размер pdf на выходе?
|
|
aawaaw
Стаж: 15 лет 4 месяца Сообщений: 514
|
aawaaw ·
04-Фев-23 19:36
(спустя 13 мин.)
конечно есть. сделайте из битмапов малоцветный джву (программкой DSM), а потом через djvutoy изготовьте из джву pdf.
|
|
Gh@nz
Стаж: 17 лет 11 месяцев Сообщений: 3344
|
Gh@nz ·
04-Фев-23 21:24
(спустя 1 час 47 мин.)
@gusenkoff
В одном из последних видео Слава описал самый простейший и быстрый способ. Посмотрите, очень рекомендую.
|
|
Mags2020
Стаж: 4 года 9 месяцев Сообщений: 33
|
Mags2020 ·
06-Фев-23 18:57
(спустя 1 день 21 час)
@gusenkoff
1. Сделайте пустую PDF страницу с цветными полосками в нужном месте. Картинкой, или лучше вектором.
2. Размножьте файл на нужное количество страниц с помощью батника. Объедините страницы Акробатом.
3. Получившуюся книжку весом в пару килобайт (PDF понимает, что в нем одинаковые картинки) наклейте на основной файл в PDF X-Change Editor. Таким способом можно прикрутить колонтитулы любой сложности.
А номера страниц делать векторными, чтобы не разбегались.
|
|
slava_kry
Стаж: 17 лет 7 месяцев Сообщений: 243
|
slava_kry ·
01-Мар-23 14:07
(спустя 22 дня)
Adobe Acrobat. Разница между версиями PDF.
https://youtu.be/j0Bksy83gnI
Разница в размере конечного файла дежавю при конвертировании ПДФ через СК.
|
|
Mutant2009
Стаж: 15 лет 10 месяцев Сообщений: 209
|
Mutant2009 ·
14-Июн-23 13:55
(спустя 3 месяца 12 дней)
А есть такой же, но без пуговиц без вычитки?
У меня есть Василий Песков "Любовь фотография", там фоток едви ли не больше, чем текста. Вполне можно оформить как имеющуюся здесь "Землю за океаном".
|
|
AlexeiPetrov
Стаж: 4 года 9 месяцев Сообщений: 322
|
AlexeiPetrov ·
14-Июн-23 14:15
(спустя 20 мин.)
Есть ли инструмент для удаления межбуквенного мусора. Я вручную удаляю, но по времени долго. Как-нибудь автоматизировать бы этот процесс.
|
|
aawaaw
Стаж: 15 лет 4 месяца Сообщений: 514
|
aawaaw ·
15-Июн-23 06:12
(спустя 15 часов)
AlexeiPetrov писал(а):
84842662Есть ли инструмент для удаления межбуквенного мусора.
СканКромсатор. Есть обучающие видео от разработчика. Практически в один щелчок удаляется всё лишнее на странице, если перед этим задействовать ocr (тессеракт либо файнридер).
|
|
AlexeiPetrov
Стаж: 4 года 9 месяцев Сообщений: 322
|
AlexeiPetrov ·
15-Июн-23 09:31
(спустя 3 часа)
aawaaw писал(а):
84844881
AlexeiPetrov писал(а):
84842662Есть ли инструмент для удаления межбуквенного мусора.
СканКромсатор. Есть обучающие видео от разработчика. Практически в один щелчок удаляется всё лишнее на странице, если перед этим задействовать ocr (тессеракт либо файнридер).
У меня ничего не получилось. Вроде скачал нужные утилиты, запустил, а файл, который в результате должен получиться, не получился. Мозги набекрень. Зачем так сложно-то?
|
|
aawaaw
Стаж: 15 лет 4 месяца Сообщений: 514
|
aawaaw ·
15-Июн-23 10:30
(спустя 58 мин.)
AlexeiPetrov писал(а):
84845242У меня ничего не получилось.
Напомню поговорку: "кто хочет - ищет способ. кто не хочет - ищет причину." На руборде в профильной ветке СК оказывают помощь любого уровня.
Сложно ровно потому, что сама задача крайне сложная.
Кстати, есть более примитивное решение, "цусима". Скриптик на питоне, который по шаблону определяет и удаляет продольные палочки. Но только отдельно стоящие, без касаний. А СК удаляет любые.
|
|
AlexeiPetrov
Стаж: 4 года 9 месяцев Сообщений: 322
|
AlexeiPetrov ·
16-Июн-23 00:19
(спустя 13 часов)
aawaaw писал(а):
84845409
AlexeiPetrov писал(а):
84845242У меня ничего не получилось.
Напомню поговорку: "кто хочет - ищет способ. кто не хочет - ищет причину." На руборде в профильной ветке СК оказывают помощь любого уровня.
Сложно ровно потому, что сама задача крайне сложная.
Кстати, есть более примитивное решение, "цусима". Скриптик на питоне, который по шаблону определяет и удаляет продольные палочки. Но только отдельно стоящие, без касаний. А СК удаляет любые.
Так-то я как раз ищу способы для оптимизации и не в ущерб качеству процесса.
И вроде кое-что получилось. За подсказку спасибо! Кромсатор - вещь!
|
|
MakardiPro
Стаж: 6 лет 7 месяцев Сообщений: 321
|
MakardiPro ·
21-Июн-23 19:01
(спустя 5 дней)
День добрый.
Вот какая штука. Я пользуюсь для сканирования и распознавания FineReader разных версий (пробовал 8ку, 12 и 15, последние две чаще всего пригождаются, т.к в 12 есть переключатель проекта на чб, а в 15 нет). Но меня он не до конца устраивает в плане распознавания текста. В каждой более новой версии качество распознавания всего, что есть на странице (в том числе и нетекстовые артефакты) улучшается, но все же до сих пор ФР не умеет распознавать различные математические-логические символы, всякие верхние и нижние индексы не очень хорошо и в словах делает ошибки, которые вроде как их не содержат (странно, что сканер не учитывает окружение буквы и не может из этого вычислить, какой именно должна быть буква под вопросом).
Короче если в качестве сканера и обработчика ФР весьма удобен, то в качестве распознавальщика уже не так сильно. Из этого следует вопрос - какие еще существуют программы (не обязательно бесплатные, может что уже есть давно на трекере), которые лучше, чем ФР распознают текст?
|
|
korsak78
Стаж: 14 лет 6 месяцев Сообщений: 71
|
korsak78 ·
27-Июн-23 10:30
(спустя 5 дней)
Не мог понять почему у меня после обработки программой (v.5.93) получается, что текст книги располагался не симметрично в левом верхнем углу. Пришлось читать инструкцию - оказалось что перед кромсанием можно настроить расположение текста Align по горизонтали и вертикали (v и h) по центру.
|
|
petoleg
Стаж: 17 лет 6 месяцев Сообщений: 718
|
petoleg ·
27-Июн-23 14:52
(спустя 4 часа)
MakardiPro писал(а):
84868663День добрый.
Вот какая штука. Я пользуюсь для сканирования и распознавания FineReader разных версий (пробовал 8ку, 12 и 15, последние две чаще всего пригождаются, т.к в 12 есть переключатель проекта на чб, а в 15 нет). Но меня он не до конца устраивает в плане распознавания текста. В каждой более новой версии качество распознавания всего, что есть на странице (в том числе и нетекстовые артефакты) улучшается, но все же до сих пор ФР не умеет распознавать различные математические-логические символы, всякие верхние и нижние индексы не очень хорошо и в словах делает ошибки, которые вроде как их не содержат (странно, что сканер не учитывает окружение буквы и не может из этого вычислить, какой именно должна быть буква под вопросом).
Короче если в качестве сканера и обработчика ФР весьма удобен, то в качестве распознавальщика уже не так сильно. Из этого следует вопрос - какие еще существуют программы (не обязательно бесплатные, может что уже есть давно на трекере), которые лучше, чем ФР распознают текст?
"в качестве сканера и обработчика ФР весьма удобен" - совсем не стоит использовать в качестве сканера и обработчика...
При сканировании у ФР вылазит специфический дефект "ступенька", по которому можно явно определить что сканы делались в ФР. Этот дефект невозможно убрать при обработке. В ранних версиях с этим можно было бороться, убирая галочку в настройках.
Использовать как автосканер, так эта функция есть или в оболочке сканера, или в программах типа ВиеСкан. Если даже нет, сканер можно обмануть и сканировать пачками 5-10-15 страниц...
Обработать - лучше Тейлор или Кромсатор.
|
|
MakardiPro
Стаж: 6 лет 7 месяцев Сообщений: 321
|
MakardiPro ·
27-Июн-23 16:24
(спустя 1 час 32 мин.)
petoleg писал(а):
84888153
MakardiPro писал(а):
84868663День добрый.
Вот какая штука. Я пользуюсь для сканирования и распознавания FineReader разных версий (пробовал 8ку, 12 и 15, последние две чаще всего пригождаются, т.к в 12 есть переключатель проекта на чб, а в 15 нет). Но меня он не до конца устраивает в плане распознавания текста. В каждой более новой версии качество распознавания всего, что есть на странице (в том числе и нетекстовые артефакты) улучшается, но все же до сих пор ФР не умеет распознавать различные математические-логические символы, всякие верхние и нижние индексы не очень хорошо и в словах делает ошибки, которые вроде как их не содержат (странно, что сканер не учитывает окружение буквы и не может из этого вычислить, какой именно должна быть буква под вопросом).
Короче если в качестве сканера и обработчика ФР весьма удобен, то в качестве распознавальщика уже не так сильно. Из этого следует вопрос - какие еще существуют программы (не обязательно бесплатные, может что уже есть давно на трекере), которые лучше, чем ФР распознают текст?
"в качестве сканера и обработчика ФР весьма удобен" - совсем не стоит использовать в качестве сканера и обработчика...
При сканировании у ФР вылазит специфический дефект "ступенька", по которому можно явно определить что сканы делались в ФР. Этот дефект невозможно убрать при обработке. В ранних версиях с этим можно было бороться, убирая галочку в настройках.
Использовать как автосканер, так эта функция есть или в оболочке сканера, или в программах типа ВиеСкан. Если даже нет, сканер можно обмануть и сканировать пачками 5-10-15 страниц...
Обработать - лучше Тейлор или Кромсатор.
А какие бы вы программы посоветовали чисто для обработки и качественного распознавания уже готовых сканов?
Иногда я распознаю чисто для своих целей книжки, все же распознанный векторный текст читать порой приятнее, нежели древний скан. В основном это касается книг, в которых есть еще масса "картинок" - ноты различные, схемы, какие-то другие нетекстовые элементы.
Собственно для этого мне и нужна какая-то программа, которая умела бы распознавать текст очень точно, без такого количества ошибок и недочетов, как у файнридера, но я просто не знаю, что есть лучше и удобнее или наравне с ним, чем, собственно ФР.
|
|
aawaaw
Стаж: 15 лет 4 месяца Сообщений: 514
|
aawaaw ·
27-Июн-23 16:38
(спустя 13 мин.)
MakardiPro писал(а):
84888404без такого количества ошибок и недочетов, как у файнридера
кхм! я что-то не слыхал, чтоб файнридер плохо распознавал...
насколько я в курсе, это лучшая программа из доступных. может и есть нечто лабораторное или военное.
|
|
MakardiPro
Стаж: 6 лет 7 месяцев Сообщений: 321
|
MakardiPro ·
27-Июн-23 17:39
(спустя 1 час 1 мин., ред. 27-Июн-23 17:39)
aawaaw писал(а):
84888457
MakardiPro писал(а):
84888404без такого количества ошибок и недочетов, как у файнридера
кхм! я что-то не слыхал, чтоб файнридер плохо распознавал...
насколько я в курсе, это лучшая программа из доступных. может и есть нечто лабораторное или военное.
Так то оно так, да только далеко не все он умеет.
Есть такая книга по музыкальной теории, называется "Учебник гармонии", Бригадный, он самый известный такой. У меня это достаточно хороший скан 1985, его нет на рутрекере отдельной раздачей, только в составе другой, но это и не важно. В чем дело. Я приведу скриншот страницы для понимания.
На этой картинке, она же страница книги, есть вещи, которые можно распознать как текст и как картинку. Если еще я вручную могу выделить ноты и кое-какие текстовые символы под ними как картинку, потому что они больше как часть картинки, нежели текста, то в тексте символы, то есть нижние (еще бывают часто верхние) индексы, все же являются текстом, подлежащем соответствующему распознаванию. И лишь в 1 из 7 примерно случаев он распознается корректно. В остальных - исправлять.
И это досадно, так как по идее он должен это нормально распознавать, но получается как всегда.
Формулы математические и логические плохо понимает. Не владеет юникодом почти. Че то как-то совсем грустно. Я удивляюсь, когда люди ставят в раздачах "распознано без ошибок". Тут либо они долго сидели и вручную все это исправляли, либо пользуются чем-то еще.
|
|
23Wera23
Стаж: 3 года 9 месяцев Сообщений: 43
|
23Wera23 ·
27-Июн-23 17:49
(спустя 10 мин.)
MakardiPro писал(а):
84888643Я удивляюсь, когда люди ставят в раздачах "распознано без ошибок".
Не ошибусь если скажу что в 90 % там автоматом прогоняли в Файнридере или самим акробатом ClearScan.
Сами проверьте - результат удивит. И что интересно - до этого никому нет дела, есть там ошибки или нету, об этом почти не говорят.
|
|
|