FAQ по сборке (созданию) DjVu книги из сырых сканов

Страницы :   Пред.  1, 2, 3 ... 34, 35, 36 ... 39, 40, 41  След.
Ответить
 

Loexa

Стаж: 15 лет 5 месяцев

Сообщений: 561

Loexa · 18-Ноя-16 00:40 (8 лет 5 месяцев назад)

OlegZ писал(а):
71840332Возможно ли только средствами сканкромсатора обработать данный скан
Хотя и не знаток, но "только средствами сканкромсатора" — нет. Только с последующей обработкой в других редакторах. Пакетной, конечно. Растр удалить надо. Будет и объём меньше, и красивше:) Да и поля вы зря обрезали. Поля — один из элементов оформления. Они украшают книгу.
[Профиль]  [ЛС] 

папаВлад

Top Loader 01* 100GB

Стаж: 14 лет 4 месяца

Сообщений: 2648

папаВлад · 18-Ноя-16 00:48 (спустя 7 мин.)

OlegZ писал(а):
71840332Вопрос к знатокам
Вот и думаю, то ли поболеть за кого-то, то ли самому поучаствовать в этой игре.
Да нет, спасую 1 раунд, правила какие-то непонятные, нужно сначала много наводящих вопросов отправить ведущему, иначе как не отвечу всё-равно проиграю, слишком часто вокруг меня на ходу меняют правила.
Если уже кто-то сразу победит в 1 раунде, то поздравляю знатока, а если нет, то попрошу уважаемого господина ведущего, OlegZ,
сразу не озвучивать правильный ответ, может я догадаюсь по подсказкам на мои вопросы.
1. Зачем нужно рассматривать именно сканкромсатор или только фотошоп/фотозум?, если сгодится результат из других редакторов.
2. Про размер файла понятно - это конкретная цифра, а что если размер снизится и качество ухудшится?, а если размер увеличится при лучшем качестве? Что для Вас предпочтительнее? Можно предложу очень маленький файл с намного лучшим качеством? Насколько можно отступать от 393,4 Kb?
3. А как определить границу "качества"? Вы собираетесь каким способом сравнивать?, хочу описание способа, чтобы можно было повторить. Чёрные буквы на чистом белом фоне - это обязательно? Картинка только с профилем "фото"?
3. Участвует ли в игре пдф?, с помощью сканкромсатора и фотошопа можно и его делать.
4. """Автоматическая обработка "оптом""" - это как?, сколько кликов мышкой можно сделать для создания готового файла целой книги?, либо нам не нужно собирать всю книгу?, а мы только должны дать настройки какой-то программы и угадать, чтобы они подошли под все страницы.
5. А зачем Вам эта игра? Вы же нашли какое-то решение, но нам ничего не рассказали, продолжайте собирать точно также, результат отличный и Вас устраивает, что мешает? Не смогли автоматизировать?, так и задавайте вопросы, как повторить определённые шаги.
p.s. Может и некорректный вопрос и всё же, OlegZ, а не слишком ли много Вы хотите?. Многие разработчики ломают голову, как создать однокнопочную программу и те малейшие удобства, что у них получаются, продаются за большие деньги. Вы не обратили внимание, что и """знатоки сканкромсатора""" затрачивают часы, дни, недели на создание одной книги. Как думаете, почему они так долго делают и отчего зависит время на обработку?
p.p.s. Забегая вперёд, скажу, что у меня есть решение для Вас, и не зная Ваших ответов на наводящие вопросы, убеждён, что оно подходит под все эти правила процентов на 95, а после ответов может достигнуть 100. Но при этом также на 95% уверен, что пользоваться этим советом не станете, да мне это и не важно, главное я победил в игре, найдя единственное решение и попутно заставил Вас более углублённо взглянуть на оцифровку книг, ведь есть прогресс, по сравнению с самым первым Вашим результатом, не правда ли?.
p.p.p.s. Знатоки уже могут догадаться о каком всем известном, но не любимом способе хочу напомнить, слишком много написал подсказок.
Loexa писал(а):
71844055Да и поля вы зря обрезали.
Не разобрался пока OlegZ, как в ST изменить размеры полей, всё впереди, обязательно научится, я верю в него, уже долго держится, не сбежал после первого вопроса.
[Профиль]  [ЛС] 

Gh@nz

Стаж: 18 лет 4 месяца

Сообщений: 3414


Gh@nz · 18-Ноя-16 02:28 (спустя 1 час 39 мин.)

aawaaw писал(а):
Есть чему удивиться, ведь мы все очень часто говорим "интересно".
Знакомо.
У нас есть привычка давать имена. Возможно, "интересно" указывает на отправную точку, сподвигнувшую к неким(некому) действам (действу).
aawaaw писал(а):
А слово - пустое. Бессмысленное в сфере науки и культуры.
Глупости люди конечно совершают (и будут совершать). Но смысл, иногда, каждый закладывает свой.
aawaaw писал(а):
И оправдываем свои поступки этим словом.
Ничто не появляется из ниоткуда и не уходит в некуда.
[Профиль]  [ЛС] 

aawaaw

Стаж: 15 лет 10 месяцев

Сообщений: 562


aawaaw · 18-Ноя-16 05:09 (спустя 2 часа 41 мин.)

папаВлад
Цитата:
А как определить границу "качества"?
да-да. Игра с неизвестными правилами. Общепринятого измеримого критерия не существует. "Кому и кобыла невеста" (с)
По скану скажу - фигово он отсканирован. Растр почти не виден. Тогда смысла переводить фото в 600дпи не было. И размер ужмётся раза в полтора. Всё равно икона не требует отчётливости, она сама по себе покоцаная и мутная. Если бы была растровая точка видна, тогда можно фото бинаризовать, но не думаю, что сжатие стало бы лучше чем в два раза.
[Профиль]  [ЛС] 

slava_kry

Стаж: 18 лет 1 месяц

Сообщений: 245


slava_kry · 18-Ноя-16 10:34 (спустя 5 часов, ред. 18-Ноя-16 10:34)

aawaaw
Дайте товарищу скан из "Слова о полку Игореве" с текстом и цветной гравюрой, но только 600. Пусть поборется
папаВлад
Да это лишнее, как будто берут на слабо... Зачем это нам?
OlegZ
Либо вы недостаточно поняли сами принципы обработки, либо вы попросту боитесь заниматься обработкой и ищете "Святой Грааль" в одну кнопку.
Театр начинается с вешалки, так и обработка начинается со сканирования. Чем тщательней/правильней выполнено сканирование, тем меньше проблем на последующих шагах.
У вас даже есть возможность просто сжать материал не обрабатывая и он всё равно будет выглядеть прилично.
Все проблемы упираются в две вещи: время и знания. ИМХО подавляющему большинству (как и мне) жалко время и они начинают халтурить (а я отошёл в сторонку). Знания же всего лишь позволяют вам в основном "из говна сделать конфетку".
Все давно уже рассмотрено и распределено и по сути большие изменения возможны лишь при большом желании что-то изменить. А кто помогал bolega или создателю ST (не помню его ник)? Только писали хотелки, хотелки, хотелки... как их много.
Путей множество и каждый выбирает свой. Все они примерно равнозначны, особенно в ч/б оригиналах. Дальше идут ни к чему не обязывающие нюансы. Килобайт больше, килобайт меньше... зачем, при современных средствах передачи данных.
Допустим, в моём случае я для определённых оригиналов (старые советсткие журналы) пришёл к выводу, что нужен просто быстрый и качественный шумодав и сжатие в J2K. Не нужно никакой обработки, т.к. она на несколько порядков отдаляет от результата.
Есть качественный шумодав и неприхотливый, но очень медленный и когда его хозяин разродится поддержкой OpenCL/GPU я не в курсе.
Представленный вами скан уже плох для простого сжатия. Вполне возможно было бы просто сжать все страницы и добавить текстовой слой остальным не заморачиваясь. Растр не убрали в результате в дежавю он "выпирает".
[Профиль]  [ЛС] 

День знаний

Стаж: 10 лет 8 месяцев

Сообщений: 2125

День знаний · 18-Ноя-16 16:31 (спустя 5 часов)

Loexa писал(а):
71844055Да и поля вы зря обрезали. Поля — один из элементов оформления. Они украшают книгу.
Вот таким "украшателям" я готова руки с мясом повырывать, когда я читаю книгу на телефоне в дороге, или, когда мне её нужно распечатать. Особенно, если печатаю несколько страниц на 1 лист. Вирутально добавить поля просто, а вот вырезать их - это по-новой тратить время на обработку книги :(((
[Профиль]  [ЛС] 

OlegZ

Стаж: 16 лет 10 месяцев

Сообщений: 788


OlegZ · 18-Ноя-16 17:42 (спустя 1 час 10 мин., ред. 18-Ноя-16 18:26)

slava_kry писал(а):
OlegZ
Либо вы недостаточно поняли сами принципы обработки, либо вы попросту боитесь заниматься обработкой и ищете "Святой Грааль" в одну кнопку.
Чтобы их понять основательно, нужно много времени, которого у меня, к сожалению уже нет.
slava_kry писал(а):
Театр начинается с вешалки, так и обработка начинается со сканирования. Чем тщательней/правильней выполнено сканирование, тем меньше проблем на последующих шагах.
Уже писал, что скан в "полноцвет" на моем сканере в 300 dpi идет 7 сек, в 600 dpi - 26 сек. При прогнозируемом объеме сканирования около 13000 стр. это для меня существенно. Поэтому сканирую 300 dpi с последующим ресемплированием в PhotoZoom Pro 6 до 600 dpi. Кстати насколько критично их после ресемплирования обрабатывать Nik Output Sharpener и что это дает в двух словах?
slava_kry писал(а):
У вас даже есть возможность просто сжать материал не обрабатывая и он всё равно будет выглядеть прилично.
Все проблемы упираются в две вещи: время и знания. ИМХО подавляющему большинству (как и мне) жалко время и они начинают халтурить (а я отошёл в сторонку). Знания же всего лишь позволяют вам в основном "из говна сделать конфетку".
Все давно уже рассмотрено и распределено и по сути большие изменения возможны лишь при большом желании что-то изменить. А кто помогал bolega или создателю ST (не помню его ник)? Только писали хотелки, хотелки, хотелки... как их много.
Путей множество и каждый выбирает свой. Все они примерно равнозначны, особенно в ч/б оригиналах. Дальше идут ни к чему не обязывающие нюансы. Килобайт больше, килобайт меньше... зачем, при современных средствах передачи данных.
Допустим, в моём случае я для определённых оригиналов (старые советсткие журналы) пришёл к выводу, что нужен просто быстрый и качественный шумодав и сжатие в J2K. Не нужно никакой обработки, т.к. она на несколько порядков отдаляет от результата.
С этого момента можно "помедленнее" и поподробнее. Смысл для меня тратить на это свое время - чтобы максимально приблизить djvu/pdf к оригиналу.
slava_kry писал(а):
Есть качественный шумодав и неприхотливый, но очень медленный и когда его хозяин разродится поддержкой OpenCL/GPU я не в курсе.
Что это за шумодав? Можно попробовать?
slava_kry писал(а):
Представленный вами скан уже плох для простого сжатия. Вполне возможно было бы просто сжать все страницы и добавить текстовой слой остальным не заморачиваясь.
Вот три скана после PhotoZoom Pro 6: 1. https://yadi.sk/i/8kdeI0PyyuyTS , 2. https://yadi.sk/i/MId5Ct0syuzAn , 3. https://yadi.sk/i/iVh6ELfPyv2hM .
Покажите, пожалуйста, "мастеркласс" и, если сильно не затруднит, объясните здесь текстом.
slava_kry писал(а):
Растр не убрали в результате в дежавю он "выпирает".
Для моего случая достаточно ли выложенной здесь версии 3.5 или есть смысл приобрести 5.1 про?
[Профиль]  [ЛС] 

qzerss

Стаж: 12 лет 11 месяцев

Сообщений: 254


qzerss · 18-Ноя-16 17:49 (спустя 7 мин.)

День знаний писал(а):
71847919Вот таким "украшателям" я готова руки с мясом повырывать
А вот таким "вырывателям" - лучше книги в бумаге покупать и не возмущаться. И понимать кое что..... переводите в букву (в электронку) эти книги и проблем с полями не будет - а оцифровка должна быть близка к оригиналу.
У каждого свои заморочки - на всех не угодишь...
Вот так помогай людям - а они ещё и руки готовы повырывать.... про спасибо уже и молчу.
[Профиль]  [ЛС] 

aawaaw

Стаж: 15 лет 10 месяцев

Сообщений: 562


aawaaw · 18-Ноя-16 18:27 (спустя 38 мин., ред. 18-Ноя-16 18:27)

День знаний
Когда вы читаете книгу в дороге, качество усвоения информации стремится к нулю. В том числе и из-за отсутствия полей (они задают внешнюю рамку сообразно смыслу текста, а совсем не для украшения - вы же телевизор через очко унитаза не смотрите). Стоит ли для такого убогого процесса так жёстко поступать с книгоделами
slava_kry
А отчего именно в 600дпи?
наверное, многие не знают о какой книге речь: OlegZ
Цитата:
около 13000 стр. это для меня существенно. Поэтому сканирую 300 dpi
Цитата:
нужно много времени, которого у меня, к сожалению уже нет
Тогда не заводите речь о качестве. Треугольник Время-Качество-Ресурс никуда не денется. Ваш трудовой ресурс фиксирован - под 13000 страниц. Времени у вас на них - нет. Значит качество не может быть высоким. Вселенная запрещает.
[Профиль]  [ЛС] 

День знаний

Стаж: 10 лет 8 месяцев

Сообщений: 2125

День знаний · 18-Ноя-16 18:33 (спустя 6 мин.)

aawaaw писал(а):
71848694Когда вы читаете книгу в дороге, качество усвоения информации стремится к нулю
Это если Вы не умеете читать в транспорте. Или ездите 5-10 минут. В Питере пересечь город на метро - полтора часа.
qzerss писал(а):
71848445Вот так помогай людям - а они ещё и руки готовы повырывать.... про спасибо уже и молчу.
Так помогать надо, чтобы людям было удобно. Помнится мне бабушка решила помочь - прокипятила блузочку (для молодых поясняю - до появления стиральных машин сначала одежду намыливали, потом полоскали, а потом на огне в тазике часто с хлокой кипятили. Для натуральных тканей - всё отлично, а вот чуток синтетики в волокнах и одежда расползается).
Если бы я сама не сканировала, то я бы притензии и не предъявляла.
[Профиль]  [ЛС] 

OlegZ

Стаж: 16 лет 10 месяцев

Сообщений: 788


OlegZ · 18-Ноя-16 18:39 (спустя 6 мин., ред. 18-Ноя-16 20:21)

папаВлад писал(а):
Не разобрался пока OlegZ, как в ST изменить размеры полей, всё впереди, обязательно научится, я верю в него, уже долго держится, не сбежал после первого вопроса.
Лет 8 назад начинал с "кромсатора", потом перешел на "тейлор". В нем многие вещи быстрее и проще. Возможно эта информация за 8 лет устарела .
aawaaw писал(а):
OlegZ
Цитата:
около 13000 стр. это для меня существенно. Поэтому сканирую 300 dpi
Цитата:
нужно много времени, которого у меня, к сожалению уже нет
Тогда не заводите речь о качестве. Треугольник Время-Качество-Ресурс никуда не денется. Ваш трудовой ресурс фиксирован - под 13000 страниц. Времени у вас на них - нет. Значит качество не может быть высоким. Вселенная запрещает.
Ну, не надо так категорично . Мы ведь все стремимся к чему-то лучшему. После ресемплирования качество обработки заметно лучше.
P.S. aawaaw, предположите, пожалуйста, на несколько секунд (хотя это может быть небезопасно ), что не у всех людей побудительными мотивами сканирования являются денежные знаки, но для них могут быть "иные способы оплаты труда", причем не обязательно в этой жизни.
[Профиль]  [ЛС] 

aawaaw

Стаж: 15 лет 10 месяцев

Сообщений: 562


aawaaw · 18-Ноя-16 18:53 (спустя 13 мин.)

День знаний
Цитата:
Это если Вы не умеете читать в транспорте.
Я умоляю Это не я "не умею читать в транспорте". Это психофизиология зрительного аппарата любого человека, и ни от времени чтения, ни от столетия на дворе это не зависит. Мозги наши так устроены. Читайте хоть Гессена Архитектура книги, стр.136. Прочих исследований не приведу, они разбросаны в разных местах. Не фиксировал источники.
Покажите мне хоть одного учёного, ставшего учёным не через читальный зал библиотеки, а через салон трамвая.
[Профиль]  [ЛС] 

Loexa

Стаж: 15 лет 5 месяцев

Сообщений: 561

Loexa · 18-Ноя-16 19:29 (спустя 36 мин.)

День знаний писал(а):
71847919Вот таким "украшателям" я готова руки с мясом повырывать
Вот таким "вырывателям" и повырывать бы их кривые ручки, не умеющие пользоваться софтом.
Книжка в идеале должна быть "as is", а как вы там её использовать будете — ваше дело.
[Профиль]  [ЛС] 

aawaaw

Стаж: 15 лет 10 месяцев

Сообщений: 562


aawaaw · 18-Ноя-16 19:47 (спустя 17 мин., ред. 18-Ноя-16 19:47)

Цитата:
должна быть "as is"
Согласен.
Нужен текст без полей - экспортируйте ocr-слой, или обрежьте поля, если там рисунки. Но в вашем экземпляре, это и будет подход к проблеме с верной стороны. Раз публично показанная ("для всех"!) книга кем-то может быть распечатана как полноценная бумажная копия взамен бумажного оригинала - то исходные поля должны быть сохранены. Нельзя извлечь из небытия то, что было уничтожено.
[Профиль]  [ЛС] 

rioter11

Top Seed 04* 320r

Стаж: 17 лет 9 месяцев

Сообщений: 1644

rioter11 · 18-Ноя-16 20:05 (спустя 18 мин.)

OlegZ,
попробуйте всё же PDF - с его инструментом ClearScan
получаются очень приличные результаты по тексту
(+халявный текстовый слой, +значительное сокращение объемов файла)
[Профиль]  [ЛС] 

OlegZ

Стаж: 16 лет 10 месяцев

Сообщений: 788


OlegZ · 18-Ноя-16 20:25 (спустя 19 мин., ред. 18-Ноя-16 21:31)

rioter11 писал(а):
71849490OlegZ,
попробуйте всё же PDF - с его инструментом ClearScan
получаются очень приличные результаты по тексту
(+халявный текстовый слой, +значительное сокращение объемов файла)
В Adobe Acrobat DC уже попробовал. Количество ошибок распознавания текста в сравнении с файнридером на несколько порядков меньше (может это связано с тем, что файнридер "нужно доработать напильником" :)) . Единственное, что "автоматом" он некоторые цветные фигуры делает черными.
https://yadi.sk/i/tFLTMCW9yve3C - 40,6 кБ со слоем распознанного текста.
[Профиль]  [ЛС] 

rioter11

Top Seed 04* 320r

Стаж: 17 лет 9 месяцев

Сообщений: 1644

rioter11 · 18-Ноя-16 20:41 (спустя 16 мин., ред. 18-Ноя-16 20:41)

ценность адобовского ClearScan-а не столько в текстовом слое сколько в красивых и аккуратных буквах
и, повторюсь, в сокращении объемов файла.
https://yadi.sk/i/5XpHKU4OyvbQA (клеарскан после СТ)
[Профиль]  [ЛС] 

Loexa

Стаж: 15 лет 5 месяцев

Сообщений: 561

Loexa · 18-Ноя-16 20:42 (спустя 25 сек.)

OlegZ
А а что конкретно интересует по обработке?
[Профиль]  [ЛС] 

OlegZ

Стаж: 16 лет 10 месяцев

Сообщений: 788


OlegZ · 18-Ноя-16 21:33 (спустя 51 мин., ред. 18-Ноя-16 21:33)

rioter11 писал(а):
71849735ценность адобовского ClearScan-а не столько в текстовом слое сколько в красивых и аккуратных буквах
и, повторюсь, в сокращении объемов файла.
https://yadi.sk/i/5XpHKU4OyvbQA (клеарскан после СТ)
Чуть-чуть не успел . Да, как вариант пойдет. Посмотрю, только какой размер будет с "фотографиями".
P.S. https://yadi.sk/d/1qO14xbFyviXi - 686 кБ, https://yadi.sk/i/xtlsZ28Ayvj2F - 965 кБ.
P.P.S "Зарядил" 1000 стр. в адоб акробат ди-си. Расчетное время обработки около 6-ти часов. Если свет за это время не отключат, посмотрим результат.
[Профиль]  [ЛС] 

папаВлад

Top Loader 01* 100GB

Стаж: 14 лет 4 месяца

Сообщений: 2648

папаВлад · 18-Ноя-16 23:09 (спустя 1 час 35 мин.)

OlegZ писал(а):
71849925P.P.S "Зарядил" 1000 стр. в адоб акробат ди-си.
Погодите, всё неправильно делаете, это не клеарскан, у Вас стоит галка на адаптивном сжатии, надо снять. И вообще, правильный клеарскан делается не так. Изначально в акробате в настройках тифа установите сжатие зип, получите огромный пдф. Возможно, Ваш слабый комп не сможет его сохранить, тогда надо собирать частями, к примеру по 50 страниц. И после накладывать клеарскан с понижением картинок до 300 дпи.
А ещё хочу сказать, что вариант с адаптивным сжатием тоже можно делать, это для тех, кому не нравится действие клеарскана, но нужно проверять не испортились ли картинки, обычно из 600 с адаптивным сжатием выходит хорошо, но разрешение понижается до 300 при максимальном качестве, а нам выше и не надо. Единственная неприятность может быть для мелкого шрифта, а на Ваших образцах мелкого нет.
OlegZ, давайте поступим так, Вы дождитесь окончания сжатия, которое сейчас идёт, и сохраните результат, потом сделаем второй файл с клеарсканом, я ещё раз покажу подробно, получим меньший по-размеру файл.
[Профиль]  [ЛС] 

rioter11

Top Seed 04* 320r

Стаж: 17 лет 9 месяцев

Сообщений: 1644

rioter11 · 18-Ноя-16 23:33 (спустя 24 мин.)

OlegZ
Цитата:
Это вы сразу сканы клерасканите? -всё же через СТ надо бы пропустить предварительно, а то действительно получается не совсем то, и теряется главная фишка Клеарскана - сглаживание букв.
у меня обычный Акробат, не DC, возможно там есть какие-то отличия по работе Клераскана?
[Профиль]  [ЛС] 

aawaaw

Стаж: 15 лет 10 месяцев

Сообщений: 562


aawaaw · 19-Ноя-16 11:02 (спустя 11 часов, ред. 19-Ноя-16 11:02)

OlegZ писал(а):
71848816P.S. aawaaw, предположите, пожалуйста,...
А это вы к чему? Непонятная фраза-дополнение.
Предполагать я умею
И в лекциях Кургиняна разобрался достаточно глубоко, чтобы говорить с богом напрямую, без посредников типа батюшек и библии, и продолжать оставаться до сих пор светским человеком. Это если насчёт идеи посмертного воздаяния. Но ваша фраза мне, повторяю, не ясна. Сканирование - вполне земная вещь, трудозатратная, и приплетать к процессу душу - лить воду на мельницу врага рода человеческого.
[Профиль]  [ЛС] 

папаВлад

Top Loader 01* 100GB

Стаж: 14 лет 4 месяца

Сообщений: 2648

папаВлад · 19-Ноя-16 12:59 (спустя 1 час 56 мин.)

rioter11 писал(а):
71851325Это вы сразу сканы клерасканите?
Это не клеарскан, это другая обработка, с применением адаптивного сжатия.
rioter11 писал(а):
71851325обычный Акробат, не DC, возможно там есть какие-то отличия
По работе и результату отличия мизерные, а вот интерфейс поменяли на непривычный. Все действия можно и на DC делать.
Почему мы не перешли на эту версию? Оттолкнуло то, что клеарскан стал более тщательным, и вроде это плюс, меньше символов остаются как картинка, а с другой стороны клеарскан чаще стал на зонах с картинками выискивать элементы текста и векторизировать то, что не нужно нам.
Как-то так, в двух словах.
[Профиль]  [ЛС] 

OlegZ

Стаж: 16 лет 10 месяцев

Сообщений: 788


OlegZ · 19-Ноя-16 17:50 (спустя 4 часа, ред. 19-Ноя-16 17:50)

Вот такая ошибка выскакивает: . Причем при попытке закодировать в pdf этот файл все отрабатывается нормально. С местом на системном и диске с источником все в порядке. Предположительно, что это ограничение 32-битной версии (существует ли 64-битная?). Вижу пока только один способ обойти эту ошибку: кодировать по 200 страниц, затем все куски слить в томже акробате. Есть какие-то идеи?
[Профиль]  [ЛС] 

папаВлад

Top Loader 01* 100GB

Стаж: 14 лет 4 месяца

Сообщений: 2648

папаВлад · 19-Ноя-16 18:21 (спустя 31 мин.)

OlegZ, вот так слабый комп , а просите для 64 бит.
Пробуйте частями, должно помочь.
[Профиль]  [ЛС] 

OlegZ

Стаж: 16 лет 10 месяцев

Сообщений: 788


OlegZ · 19-Ноя-16 21:28 (спустя 3 часа)

папаВлад писал(а):
71856981OlegZ, вот так слабый комп , а просите для 64 бит.
Пробуйте частями, должно помочь.
Стоит Win 8.1 Pro x64, поэтому почему бы и не попросить. С CPU Qeen 11241 "попугаев" может медленно, но закодируется. Главное, чтобы было поменьше "телодвижений" - это ведь так комфортно .
[Профиль]  [ЛС] 

папаВлад

Top Loader 01* 100GB

Стаж: 14 лет 4 месяца

Сообщений: 2648

папаВлад · 19-Ноя-16 23:44 (спустя 2 часа 16 мин., ред. 19-Ноя-16 23:44)

OlegZ писал(а):
71858472Главное, чтобы было поменьше "телодвижений" - это ведь так комфортно
А метод разделённых сканов, который Вы ранее показали, оказался сложным? Смотрите тогда на простые варианты оцифровки.
У Вас на одном файле есть надпись дискрин, значит освоили его. Вот с этого шага и надо начать, пока сканы ни в какой программе не побывали. У Вас же граф.редактор фотошоп, вот в нём набираете в пакетную обработку (экшен) - фильтр дискрин и какие там улучшалки и что-то для осветления фона (хоть контраст), но немного, а только под текстом почистить, затем в STF (лучше для 64 бит - STA) просто вывести с одинаковыми белыми полями, в цвете, на 600 DPI. Всё, хватит этой обработки.
Спросите у дежавюшников наиболее удачный профиль, который наименее других испортит картинки, либо в пдф хоть клеарскан, хоть то же адаптивное сжатие (но контролируйте иллюстрации), хоть просто всё как есть в йпег или йпег2000, хоть под распознавание в файнридер (ошибок будет мизер, шрифт очень крупный).
Уже вроде все способы описали, определяйтесь.
---
добавлено позже...
Пробные файлы из ФР, вообще ничего не делая, просто засунул в него Ваш скан на 300 дпи и не исправил ни одной ошибки.
качество 28% - 34 кб
качество 50% - 54 кб
так что и такой вариант может быть применён, а в составе полного пдф размер ещё уменьшится за счёт объединения шрифтов.
[Профиль]  [ЛС] 

День знаний

Стаж: 10 лет 8 месяцев

Сообщений: 2125

День знаний · 20-Ноя-16 00:57 (спустя 1 час 12 мин., ред. 20-Ноя-16 00:57)

OlegZ, мне тут подумалось, это конечно похвально, что Вы хотите научиться самому обрабатывать сканы. Но раз есть ограничение по времени, то почему бы это время не употребить на качественное сканирование, а предоставить возможность обработать качественные сканы кому-нибудь другому?... Это первый момент.
Второй момент - судя по представленным страницам - у Вас не все страницы требуют сканирования в цвете. Почему бы двухцветные страницы не отсканировать в градациях серого - файловый размер будет меньше, а следовательно и время сканирования уменьшиться.
Третий момент тоже связан с размером файла скана передоваемого со сканера. В настройках сканера обычно (у тех трех, с которыми я работала такие настройки были) есть возможность сохранять в tiff с сжатием без потерь. Возможно для этого придется переключить режим сканера с пользовательского на продвинутый.

qzerss писал(а):
71848445лучше книги в бумаге покупать
Покупаю. Будем меряться объемами домашних библиотек? И как за вычетом дубликатов дома и на даче или без вычетов оных?
Мне казалось, что любому будет очевидно, что область применимости бумажных и электронных книг разная. Оказывается нет...
aawaaw писал(а):
71848975Покажите мне хоть одного учёного, ставшего учёным не через читальный зал библиотеки, а через салон трамвая.
А. Книги читают не только ученые. Я сильно сомневаюсь, что ученные составляют хотя бы половину читателей.
Б. Я отошла от той среды, так что репрезентативную выборку среди молодых ученных не сделаю, но регулярно видели как мои сенсеи читали в электричке и ни разу не встречала их в библиотеках.
Loexa писал(а):
71849219Книжка в идеале должна быть "as is"
Кому книга должна?
Если Вам нравится превращать книгу в произведение искусства - та ради бога. Есть книги достойные этого. Но не надо рекомендовать подобное для _всех_ книг.
Не забывайте мы сканируем, чтобы книгами пользовались сразу. Если книгу для использования нужно дополнительно обработать, то это всего лишь значит, что её подготовил человек с кривыми руками (или дурной головой). Когда я сканировала за деньги книги для одной библиотеки, у начальницы была блажь - все поля должны быть 1,5 см. А то, что ширина страниц у тех книг прыгала как уровень водки в стакане у наборщика, её не волновало. Поэтому когда книгу просматривали на экране монитора - субъективно шрифт оказывался то 10pt , то на соседней странице 16pt.
aawaaw писал(а):
71848975Читайте хоть Гессена
Прочла
Взяла линейку и померила - максимальная ширина телефона 5,5 см - рекомендация текста для быстрого чтения, планшетник - 7,5 см на 15 см, т.е. как раз держа как обычную книгу - ширина для чтения.
Поля! у того и другого уже есть поля - стационарные хардовые.
А вот бумажные книги(я имею в виду компьютерную литературу) нынче не выдерживают эти рекомендации, поэтому их читать в бумаге крайне раздражительно, а в электронном виде без полей - самое то!
aawaaw писал(а):
71849353Нужен текст без полей - экспортируйте ocr-слой
Не путайте Текст как содержимое книги, и OCR. Дважды в жизни было нужно скопировать из текстового слоя - в третий раз на эти грабли не наступлю. Мне набить пару страниц быстрее будет раза в 2-3 чем править OCR. Пуская незрячие этим занимаются.
[Профиль]  [ЛС] 

aawaaw

Стаж: 15 лет 10 месяцев

Сообщений: 562


aawaaw · 20-Ноя-16 07:05 (спустя 6 часов, ред. 20-Ноя-16 07:05)

День знаний писал(а):
71859924Прочла
Не до конца вы прочли. Раздел про поля чуть дальше.
Цитата:
мы сканируем, чтобы книгами пользовались сразу. Если книгу для использования нужно дополнительно обработать
Читатель _неизвестен_, сколько раз повторять можно. Что за апологетика себя любимой. Ваше мнение о методе использования - не есть мнение всех читателей. Одному одно, другому другое. Какого чёрта именно ваше мнение нужно брать за образец, под который будет изготовлена книга. Это не наезд, это констатация отсутствия обычного здравого смысла в ваших рассуждениях. Скрытое "а мне надо только так, и никто не волнует!!"
Я, когда весной себе списочек возможных вариантов использования файла набрасывал, составил пять (!) путей. От архивного хранения, до растаскивания на цитаты (т.е. вычитка обязательна, плюс экспорт картинок как фича ридера). И пять - не предел, как я понимаю.
Цитата:
Не путайте Текст как содержимое книги, и OCR.
То же самое, потеря логики рассуждений. Исходно мы говорили об отсутствии полей, теперь вы их обрезку оправдываете отсутствием вычитывальщиков.
Прямо-таки весь мир на вас обязан поработать, чтобы вам было удобнее в метро ехать.
Цитата:
Книги читают не только ученые.
Может быть я неясно выразился. Опять же "исходно", мы говорили о _качестве_усвоения_ текста. И тут учёные наиболее характерная группа. Читать объявления о продаже это совсем не то, безусловно. Запоминать и структурировать их (объявления) не нужно. Речь я вёл о том, что уж больно жёсткие у вас высказывания для совсем несерьёзной задачи, "объявления почитать". Потому что более серьёзную литературу в метро читать бесполезно, зрительный аппарат не позволит её усвоить.
дополнено
Кстати, ваше раздражение полями в метро подтверждает Гессена. Утомляемость растёт от неудобств для глаза, утомляемость вызывает раздражительность, а вы её считаете следствием полей.
[Профиль]  [ЛС] 

папаВлад

Top Loader 01* 100GB

Стаж: 14 лет 4 месяца

Сообщений: 2648

папаВлад · 20-Ноя-16 15:03 (спустя 7 часов)

День знаний писал(а):
71859924OlegZ, мне тут подумалось, это конечно похвально, что Вы хотите научиться самому обрабатывать сканы. Но раз есть ограничение по времени, то почему бы это время не употребить на качественное сканирование, а предоставить возможность обработать качественные сканы кому-нибудь другому?... Это первый момент.
Да пусть сам делает, ему же интересно это, а обработчиков мало, а качественных ещё меньше.
Если начнёт кого-то искать, то времени потратит больше, да и может нарваться на такого капризку, что условия по скану будут максимальные (всё на 600, в цвете, поля обрезаны, тиф без сжатия, удобный файлообменник или облако...). А потм окажется, что качественному оцифровщику материал покажется неинтересным и он не станет применять все свои знания к данной книге, сделает на хорошо с минусом, и вдруг это не устроит сканировщика.
Опять же, видно, что OlegZ хочет потратить время рационально, а не просто """ограничение по времени""", у него есть чёткая задача на 13000 страниц и пока он в поиске варианта по обработке.
День знаний писал(а):
71859924Второй момент - судя по представленным страницам - у Вас не все страницы требуют сканирования в цвете. Почему бы двухцветные страницы не отсканировать в градациях серого - файловый размер будет меньше, а следовательно и время сканирования уменьшиться.
А многие оцифровщики считают, что сканировать нужно всё в цвете, хотя сами не всегда так делаем.
День знаний, есть некоторая полезность в цветном скане, т.к. многий мусор является вкраплениями в бумаге, либо жирные пятна, воск от свечей, да и просто желтизна от старения - всё это даёт жёлто-оранжевый цвет, и если обработчик умеет его грамотно удалять, не затрагивая другие цвета, то для него цветной скан большое подспорье, против серого, на котором... сами понимаете как выглядит.
День знаний писал(а):
71859924Третий момент тоже связан с размером файла скана передоваемого со сканера. В настройках сканера обычно (у тех трех, с которыми я работала такие настройки были) есть возможность сохранять в tiff с сжатием без потерь. Возможно для этого придется переключить режим сканера с пользовательского на продвинутый.
TIF-LZW имеет меньший размер, чем TIF без сжатия, это очевидно.
Далее делаем тесты и получаем такие выводы:
- если будете запаковывать все сканы в один архив, для передачи другому человеку или для личного хранения, то тиф без сжатия жмётся архиваторами гораздо сильнее, чем тиф-лзв, который уже сжат и более не сожмётся. Разница получается очень существенная, а на 13000 будет просто невероятная. Я не смогу написать даже приблизительную цифру в процентах, т.к. очень многое зависит от того, что на скане, сколько светлых и тёмных пикселей.
- лично зафиксировал случаи, когда программа не может открыть огромный тиф-лзв, просто мощи компа не хватает, и при этом спокойно открывает тот же файл, если его перевести в тиф без сжатия. Бывало, что откроет тиф-лзв, сделаешь нужные графические правки, а вот сохранить уже не могу, обидно, работа прошла вхолостую.
- при работе в программах обработки изображений, на моих тестах всегда проигрывал тиф-лзв, я очень хочу увидеть обратное, но до сего дня мне никто это не показал вживую, только дают ссылки на википедию, на какие-то заказные статьи, на профессорские доклады и прочую ничем не подтверждённую хрень и потому я до сих пор утверждаю, что по скорости обработки, открытия, сохранения... тиф-лзв всегда проигрывает тифу без сжатия. Проверено на слабых и быстрых машинах, на 32 и 64-х битных.
LZW - это безпотерьное сжатие, ключевое слово "сжатие", а значит любой программе нужно сначала распаковать это сжатие, отредактировать внутри что-то по желанию оцифровщика, а после ещё и запаковать в LZW, соответственно в несжатом тифе нет двух операций, по распаковке и упаковке, отсюда и выигрыш в скорости обработки.
Всё вышенаписанное не означает, что давайте все по-быстрому отказывайтесь от LZW, конечно не нужно крайностей, пользуйтесь как и ранее, кому что удобно, это просто информация, которую нужно учитывать в некоторых конкретных случаях и не крутить пальцем у виска, если кто-то просит именно тиф без сжатия.
-
День знаний, про спор с полями, ну не знаю, есть ли смысл его продолжать.
Графическая оцифровка всегда предполагала наличие полей как в книге, многие отступают, делают на глазок и т.д., но чтоб совсем или почти совсем убрать, такое для дежавю и пдф точно не рекомендуют.
Попробуйте сменить программу чтения, чтоб можно было изменить масштаб.
[Профиль]  [ЛС] 
 
Ответить
Loading...
Error