Лики творчества Год: 1988 Автор: Волошин Максимилиан Жанр: сборник статей, литературоведение Издательство: Наука Серия: Литературные памятники Язык: Русский Формат: DjVu Качество: Отсканированные страницы + слой распознанного текста Количество страниц: 863 Сканирование/обработка: AAW/Alexx Описание: Статьи-репортажи Максимилиана Александровича Волошина (1877-1932) о русской, французской литературе и о театре, о творчестве французских импрессионистов (книги 1—4) печатались в журналах "Русская мысль", "Весы", "Золотое руно". Статьи 1-й книги были собраны и изданы Волошиным отдельной книгой под заглавием "Лики творчества" (СПб., 1914). Книги 2, 3 и 4 автор издать не успел, но сохранились планы издания и подборки газетно-журнальных вырезок с правкой, определявшие содержание этих книг.
Кроме 1-й книги, издание серии включает в себя статьи, подготовленные Волошиным для последующих трех выпусков, и таким образом объединяет в себе все значительное, созданное Волошиным в области литературной и художественной критики. Доп. информация: OCR вариант с сохранением макета есть в другой раздаче - https://rutr.life/forum/viewtopic.php?t=3507575
Не очень понимаю смысл такой раздачи. Есть уже это же издание - в pdf. Причем, pdf с внедренными шрифтами (т.е. очень комфортный и для чтения и для печати). Если нужен djvu - из имеющегося pdf-файла достаточно легко изготавливается (связкой Adobe Acrobat - Document Express Editor - Fine Reader - DjvuOCR - (DjVuBookmarker - если нужно оглавление с навигацией)) более качественный и "легкий" файл. На пробу я изготовил за 2 часа из указанного pdf-файла djvu-файл (с сохранением обложки и иллюстраций, с текстовым слоем, правда, без закладок) размером в 6 мб. Сколько времени сканировал книгу (862 стр.) и затем обрабатывал файлы mor_? Вопрос риторический. Для сравнения показана одна и та же страница (194 стр. в книге) из файла, изготовленного из pdf и файла в этой раздаче: и .
(Чтобы увидеть разницу, нажимайте "+" при просмотре)
Не очень понимаю смысл такой раздачи. Есть уже это же издание - в pdf. Причем, pdf с внедренными шрифтами (т.е. очень комфортный и для чтения и для печати).
Вся проблема старого варианта - в том, что он уже не скан. Это просто распознанный текст с попыткой сохранения макета книги. Да, пагинация там сохранена, но кто гарантирует отсутствие ошибок распознавания?
Вторая проблема - если я правильно понимаю, то первый pdf вариант был сделан в FR, который в одном из режимов позволяет сохранить исходный вид книги. Однако качество сохранения оригинального макета я оцениваю на как не очень хорошее. Приведу пример: На мой взгляд, 1-й вариант выглядит плохо.
cikada59 писал(а):
Не очень понимаю смысл такой раздачи. Есть уже это же издание - в pdf. Причем, pdf с внедренными шрифтами (т.е. очень комфортный и для чтения и для печати).
Если нужен djvu - из имеющегося pdf-файла достаточно легко изготавливается (связкой Adobe Acrobat - Document Express Editor - Fine Reader - DjvuOCR - (DjVuBookmarker - если нужно оглавление с навигацией)) более качественный и "легкий" файл. На пробу я изготовил за 2 часа из указанного pdf-файла djvu-файл (с сохранением обложки и иллюстраций, с текстовым слоем, правда, без закладок) размером в 6 мб.
DjVu или PDF совершенно неважно. Важно одно - получение факсимиле исходной книги, а не распознанного варианта. Вы можете записать в djvu/pdf или еще в какой-нибудь формат хоть из DOCa (судя по вашим критериям это будет самый "качественный и легкий" вариант), однако к исходному виду книги это его не приблизит.
cikada59 писал(а):
Сколько времени сканировал книгу (862 стр.) и затем обрабатывал файлы mor_? Вопрос риторический.
Кто сканировал и обрабатывал книгу - написано в 1-м посте.
Вся проблема старого варианта - в том, что он уже не скан. Это просто распознанный текст с попыткой сохранения макета книги. Да, пагинация там сохранена, но кто гарантирует отсутствие ошибок распознавания?
То же самое можно сказать и про ваш файл - "распознанный текст с попыткой сохранения макета книги". Вы можете гарантировать отсутствие ошибок распознавания в Вашем OCR? Почему Вы решили, что текст в файле Dark_Ambient'a не прошел вычитку? Вы его не спрашивали, но уже подозреваете наличие ошибок. Нехорошо-с :).
mor_ писал(а):
Вторая проблема - если я правильно понимаю, то первый pdf вариант был сделан в FR, который в одном из режимов позволяет сохранить исходный вид книги. Однако качество сохранения оригинального макета я оцениваю на как не очень хорошее. Приведу пример:
На мой взгляд, 1-й вариант выглядит плохо.
Ну, как был сделан файл у Dark_Ambient'a - Вы спросите в его раздаче (я бы не стал так категорично утверждать про FR). Что касается качества сохранения оригинального макета, то и у Вас оно не блестяще - Ваш же пример показывает характерную "грязноту" отсканированного текста. Для чтения с экрана и с листа (после распечатывания) - это заметный минус. На мой взгляд, Ваш вариант выглядит хуже 1-го.
mor_ писал(а):
DjVu или PDF совершенно неважно. Важно одно - получение факсимиле исходной книги, а не распознанного варианта. Вы можете записать в djvu/pdf или еще в какой-нибудь формат хоть из DOCa (судя по вашим критериям это будет самый "качественный и легкий" вариант), однако к исходному виду книги это его не приблизит.
Так Ваше факсимиле книги (на мой взгляд) отнюдь не лучше варианта Dark_Ambient'a! По поводу DOCa - слишком смелая экстраполяция (я этот формат не имел ввиду и, вообще, не сторонник этого формата в деле изготовления эл. версий книг). В моей фразе "качественный" относилось к качеству отображения текста, а "легкий" - к весу файлов.
mor_ писал(а):
Кто сканировал и обрабатывал книгу - написано в 1-м посте.
Вы невнимательно прочитали вопрос. Кто сканировал и обрабатывал - мною прочитано и понято. Я спросил - сколько времени потрачено?. Смысл моего поста был в том, что стоило ли тратить столько усилий (по сканированию и обработке), чтобы всего-лишь продублировать сделанную ранее работу?
То же самое можно сказать и про ваш файл - "распознанный текст с попыткой сохранения макета книги". Вы можете гарантировать отсутствие ошибок распознавания в Вашем OCR?
Не могли бы вы уточнить что вы называете OCR? В моей раздаче сохранено исходное изображение страницы + к ней подложен OCR слой, в котором точно есть ошибки, поскольку он не вычитан.
Или вы имеете ввиду ошибки при создании картинки? Они также возможны (утраты при бинаризации, despeckle (если он проводился) может приводить к утратам точек). Однако я считаю, что их вероятность значительно ниже, чем для чистого OCR варианта.
cikada59 писал(а):
Почему Вы решили, что текст в файле Dark_Ambient'a не прошел вычитку? Вы его не спрашивали, но уже подозреваете наличие ошибок. Нехорошо-с :).
1. DarkAmbient обычно указывает в раздачах, если скан его изготовления. Думаю, что то PDF делал не он. По-моему первоисточник файла - imwerden
2. Я уверен, что первый PDF проходил вычитку. Однако, моего недоверия к OCR это не отменяет. Моя позиция: для научного издания (к которым относятся ЛП) - наличие только распознанного варианта, равнозначно его отсутствию. Раз уж мы взялись за изготовление данной серии, то все чистые OCR будут переделаны.
cikada59 писал(а):
Ну, как был сделан файл у Dark_Ambient'a - Вы спросите в его раздаче (я бы не стал так категорично утверждать про FR). Что касается качества сохранения оригинального макета, то и у Вас оно не блестяще - Ваш же пример показывает характерную "грязноту" отсканированного текста. Для чтения с экрана и с листа (после распечатывания) - это заметный минус. На мой взгляд, Ваш вариант выглядит хуже 1-го.
....
Так Ваше факсимиле книги (на мой взгляд) отнюдь не лучше варианта Dark_Ambient'a! По поводу DOCa - слишком смелая экстраполяция (я этот формат не имел ввиду и, вообще, не сторонник этого формата в деле изготовления эл. версий книг). В моей фразе "качественный" относилось к качеству отображения текста, а "легкий" - к весу файлов.
1. По поводу "качества сохранения оригинального макета".
Поскольку в DjVu сохранено факсимильное изображение страниц, то макет книги передается в точности. Насчет OCR варианта этого сказать нельзя. 2. По поводу качества отображения текста - я просто не понимаю, как можно сравнивать распознанный текст, отображаемый с помощью шрифтов, с картинкой?
Естественно, что он выглядит чище, но для меня это неприемлемый вариант.
cikada59 писал(а):
Вы невнимательно прочитали вопрос. Кто сканировал и обрабатывал - мною прочитано и понято. Я спросил - сколько времени потрачено?. Смысл моего поста был в том, что стоило ли тратить столько усилий (по сканированию и обработке), чтобы всего-лишь продублировать сделанную ранее работу?
Да, я подумал, что вы приписываете изготовление скан мне.
Вопрос, как мне кажется, совершенно не риторический, а принципиальный. Я бы его переформулировал так: считать ли наличие вычитанного OCR-варианта с сохранением пагинации достаточным?
Мое мнение - нет.
Спасибо mor_! Поучительный диалог распознавальщика с факсимилистом Обязательное чтение для всех фанатов чистого OCR, книгоубийц с ImWerden и прочих библиофагов.
mor_ писал(а):
для научного издания (к которым относятся ЛП) - наличие только распознанного варианта равнозначно его отсутствию. Раз уж мы взялись за изготовление данной серии, то все чистые OCR будут переделаны.
Пока отсутствовал, уже и фанаты (или клакёры?) набежали :(.
mor_ писал(а):
Не могли бы вы уточнить что вы называете OCR? В моей
раздаче сохранено исходное изображение страницы + к ней подложен OCR
слой, в котором точно есть ошибки, поскольку он не вычитан.
Или вы имеете ввиду ошибки при создании картинки? Они также возможны
(утраты при бинаризации, despeckle (если он проводился) может приводить к
утратам точек). Однако я считаю, что их вероятность значительно ниже, чем
для чистого OCR варианта.
Я говорил об ошибках в OCR-слое (обсуждать ошибки в изображениях уместно лишь при сканировании художественных изданий: альбомов репродукций, фотографий, каталогов и т.п. Литпамятники к этой категории не относятся).
mor_ писал(а):
cikada59 писал(а):
Почему Вы решили, что текст в файле
Dark_Ambient'a не прошел вычитку? Вы его не спрашивали, но уже
подозреваете наличие ошибок. Нехорошо-с :).
1. DarkAmbient обычно указывает в раздачах, если скан его изготовления.
Думаю, что то PDF делал не он. По-моему первоисточник файла - imwerden
2. Я уверен, что первый PDF проходил вычитку. Однако, моего недоверия к
OCR это не отменяет.
Да, первоисточник файла - ImWerden (я специально скачал файл с Волошиным у них и сравнил). Здесь Вы говорите, что "первый PDF проходил вычитку". Здесь с Вами я согласен: в чем-чем, а в небрежности при обработке файлов ImWerden замечен не был. А вот в реплике на мой первый пост Вы почему-то заявили:
mor_ писал(а):
Да, пагинация там сохранена, но кто гарантирует отсутствие ошибок распознавания?
Зачем же наговаривать на чужую раздачу?
mor_ писал(а):
Моя позиция: для научного издания (к которым относятся ЛП)
- наличие только распознанного варианта, равнозначно его отсутствию. Раз
уж мы взялись за изготовление данной серии, то все чистые OCR будут переделаны.
Позиция симпатичная. Но в данном конкретном случае Вы упускаете важный нюанс: в варианте ImWerden (Dark_Ambient'a) присутствует не только вычитанный OCR, но и сохранена пагинация оригинала. Для исследователя, работающего с этой книгой как с источником - это всё, что ему нужно! Полная факсимильность здесь не нужна - это не художественное издание (вся серия ЛП с полиграфической точки зрения отпечатана посредственно) и не инкунабула какая-нибудь (Лики вышли в 1988 г. тиражем 50000 экз. и в 1989 г. была допечатка также в 50000 экз.).
mor_ писал(а):
1. По поводу "качества сохранения оригинального макета".
Поскольку в DjVu сохранено факсимильное изображение страниц, то макет
книги передается в точности. Насчет OCR варианта этого сказать нельзя.
Согласен. Я не оспариваю нужность факсимильного итображения изданий (путем сканирования) вообще. Мне кажется это излишним в данном конкретном случае - аргументы я привел выше.
mor_ писал(а):
2. По поводу качества отображения текста - я просто не понимаю, как можно сравнивать распознанный текст, отображаемый с помощью шрифтов, с картинкой?
Естественно, что он выглядит чище, но для меня это неприемлемый вариант.
Ага, "искусство ради искусства" :). Вы выкладываете свой скан не для читателей, а для себя и таких же "ценителей прекрасного"?
mor_ писал(а):
cikada59 писал(а):
Вы невнимательно прочитали вопрос. Кто сканировал и обрабатывал - мною прочитано и понято. Я спросил - сколько времени потрачено?. Смысл моего поста был в том, что стоило ли тратить столько усилий (по сканированию и обработке), чтобы всего-лишь продублировать сделанную ранее работу?
Да, я подумал, что вы приписываете изготовление скан мне.
Ну почему Вы не хотите ответить на прямой вопрос, а вместо этого ищете двойное дно? Зачем мне извивы Вашего подсознания!? Вопрос был чисто технический. Ответьте просто: "N часов (дней, недель etc)". Или (если Вы по какой-либо причине стесняетесь признаться в своих трудозатратах) - "не скажу" :). Я сам отсканировал не один десяток книг и, потому, пойму любой Ваш ответ на этот вопрос.
mor_ писал(а):
Вопрос, как мне кажется, совершенно не риторический, а
принципиальный. Я бы его переформулировал так: считать ли наличие
вычитанного OCR-варианта с сохранением пагинации достаточным?
Мое мнение - нет.
А моё мнение - да. Для читателя-любителя (читателя для удовольствия) после содержания текста важнее всего комфортность (для глаз) чтения. Для читателя-профессионала (читателя для изучения текста) важна пагинация для возможного цитирования, но и от комфортности чтения профессионалы вряд ли откажутся (разумеется, все это по важности идет опять же после содержания текста).
В общем, я понял Вашу позицию. Вы, надеюсь, - поняли мою. Разводить дальнейший флейм считаю излишним. Единственно, надеюсь на ответ на мой "технический" вопрос о временнЫх затратах.
"Клакёров" прошу не возбуждаться. На ваши реплики отвечать не буду.
Да, первоисточник файла - ImWerden (я специально скачал файл с Волошиным у них и сравнил). Здесь Вы говорите, что "первый PDF проходил вычитку". Здесь с Вами я согласен: в чем-чем, а в небрежности при обработке файлов ImWerden замечен не был. А вот в реплике на мой первый пост Вы почему-то заявили:
...
Зачем же наговаривать на чужую раздачу?
"Наговор" не самое подходящее слово Замечание казалось не конкретного электронного варианта, а OCR-технологии в целом.
Конкретно в этой книге ошибок минимальное количество, но они есть. Пример ошибки виден даже на приведенном мной куске (& вместо ~), также их можно быстро найти в диакритических знаках слов на иностранных языках.
Я не буду оценивать важность или допустимость таких ошибок, просто привел примеры характерных проблем при OCR.
cikada59 писал(а):
Ага, "искусство ради искусства" :). Вы выкладываете свой скан не для читателей, а для себя и таких же "ценителей прекрасного"?
Прежде всего я сканирую/обрабатываю для себя, т.е. те книги которые мне интересны. Соответственно и форму выбираю ту, которую считаю оптимальной.
У "читателей", как правило, диапазон запросов слишком широк (хотят PDF вместо DjVu, различные OCR-форматы, ссылки в оглавлении, поля по-меньше, обложку в начале, вклейки в конце книги, убрать пустые страницы и т.д. и т.п.) всем пожеланиям удовлетворить невозможно, да и зачем? Из факсимильного djvu каждый может сделать вариант на свой вкус.
cikada59 писал(а):
Ну почему Вы не хотите ответить на прямой вопрос, а вместо этого ищете двойное дно? Зачем мне извивы Вашего подсознания!? Вопрос был чисто технический. Ответьте просто: "N часов (дней, недель etc)". Или (если Вы по какой-либо причине стесняетесь признаться в своих трудозатратах) - "не скажу" :). Я сам отсканировал не один десяток книг и, потому, пойму любой Ваш ответ на этот вопрос.
Я просто не понял из первого вопроса, что вас интересуют конкретные цифры. Поскольку сканировал/обрабатывал не я, то цифры приблизительные:
Скан: AAW обычно делает ~300 сканов/час, соответственно на эту книгу ушло 2 часа (сканируются развороты).
Обработка: я не в курсе деталей методики обработки Alexx (он использует ST, а мне привычней Corel и SK). У меня бы ушло на эту книгу часа 4-5, наверное, у него цифры схожие.
cikada59 писал(а):
Согласен. Я не оспариваю нужность факсимильного итображения изданий (путем сканирования) вообще. Мне кажется это излишним в данном конкретном случае - аргументы я привел выше.
...
А моё мнение - да. Для читателя-любителя (читателя для удовольствия) после содержания текста важнее всего комфортность (для глаз) чтения. Для читателя-профессионала (читателя для изучения текста) важна пагинация для возможного цитирования, но и от комфортности чтения профессионалы вряд ли откажутся (разумеется, все это по важности идет опять же после содержания текста).
В общем, я понял Вашу позицию. Вы, надеюсь, - поняли мою. Разводить дальнейший флейм считаю излишним. Единственно, надеюсь на ответ на мой "технический" вопрос о временнЫх затратах.
"Клакёров" прошу не возбуждаться. На ваши реплики отвечать не буду.
Согласен, насчет прекращения дискуссии. Позиция сторонников OCR вариантов не стала мне ближе, но, по крайней мере, стала понятней
Ваши раздачи считаю эталонными, они безупречны во всех отношениях.
+1. Мое мнение как сканировщика/обработчика (это к вопросу о "клакёрах"), надеюсь, имеет какой-то вес.
А OCR-ы научной литературы без сканов - это преступление. Вот марининых на здоровье, пусть делают только в fb2, невелика утрата.