В инструкции предлагалось обрабатывать книги с помощью программы ScanKromsator v5.92, которая обладает очень мощным функционалом, но она слишком сложная для новичков, на английском языке, да, и к тому же, обладает закрытым кодом и её нет для linux. Это как использовать Adobe Photoshop тогда, когда требуется функционал Paint'а. Конечно, можно было бы запустить её под wine, но для труъ линуксоидов есть программа Scan Tailor, которая работает как на всех популярных версиях windows, так и на linux, облдает открытым исходным кодом, бесплатна, проста, русифицирована, и в ней есть некоторые функции, которых нет в ScanKromsator.
Взять её можно в центре приложений ubuntu, там она есть в стандартных репозитариях. А ещё на официальном сайте программы scantailor.org в разделе «downloads» (представлены версии для windows и linux).
Главное окно программы выглядит следющим образом:
Чтобы начать работу, нажимаем на «новый проект», после чего выскакивает окно:
В котором указываем, где расположены отсканированные изображения. После этого программа автоматически назначит путь для выходных изображений ...путь к исходникам../out/
Если вас это не устраивает, можно поменять, выбрав свою папку. После этого все файлы, которые содержатся в директории ввода появятся в списке «Файлы в проекте». Если в этой папке есть файлы, которые не требуется обрабатывать, то можно их выделить и перебросить с помощью стрелок в список «файлы не в проекте», тогда они не будут обработаны.
Для Иврита или Арабского языка ставим соответствующую галку. Если вы знаете dpi (точек на дюйм отсканированного изображения) и не доверяете автоматическому распознаванию dpi программы, то можете указать этот параметр вручную для каждого изображения, для этого нажимаем на галочку «править dpi, даже если они выглядят нормальными» и на кнопку «ОК», после чего видим следующее окно:
Тут указываем dpi для каждого фала или серии файлов и нажимаем «ок».
После чего открываются все нужные нам файлы в программе:
Видим, что изображение обрабатывается в 6 этапов.
Всегда можно вернуться к предыдущему этапу, нажав на соответствующий пункт в левом верхнем окне.
Если мы поняли, что у нас есть какие -то изображения, которые мы забыли выкинуть в самом начале, то можно выбрать его в правом окне и выбрать пункт «remove from proget». Если же, наоборот, мы забыли про какое -то изображение, то можно выбрать файл за/перед которым следует вставить изображение, вызвать контекстное меню и выбрать «Insert before» (вставить до) или «Insert after» (вставить после).
Этап 1.
Если изображение повернуто криво, то его положение можно будет поменять с помощью оранжевых кнопок. Чтобы применить данные параметры ко всем изображениям, нужно нажать на кнопку «Применить к» и выбрать «Ко всем страницам». Если повёрнута только часть страниц, то выделяем их в правом окне, исправляем ориентацию и, нажимая пункт «применить к», выбираем «к выделенным». Если же повёрнута каждая вторая страница, то в окне можно выбрать пункт «к каждой второй странице».
После чего все страницы будут повёрнуты так, как нужно. После этого всего нажимаем на пункт «Разметка страниц»
Этап 2:
Тут мы вибираем зоны, где заканчивается одна страница и начинается другая, посредством перемещения перегородки для каждой страницы. Можно сделать так, чтобы программа автоматически распознавала эти зоны, для этого нужно нажать на кнопку «Автоматически» и, чтобы применить это ко всем страницам, то нужно нажать на кнопку «Изменить», выбрать флажок «Ко всем страницам», после чего нажать ок.
Если на отсканированном изображении только 1 страница или вы хотите, чтобы на каждом листе было 2 страницы, то можно выбрать вторую иконку в пункте «Тип разреза».
Если на отсканированном изображении нет ничего лишнего (то есть тёмных зон как на фото) и вы ничего не хотите менять, можно выбрать первую иконку для таких страниц в пункте «Тип разреза»
Поле чего можно перейти к третьему этапу. Для этого нажимаем на пункт «компенсация наклона»
Этап 3.
Тут можно для каждой страницы плавно изменить наклон с помощью перемещения синих кнопок (отмечены красным цветом). Изображение можно приближать посредством вращения колесика мыши, перемещать, захватывая мышью. Если хотим, чтобы наклон определялся автоматически, то щёлкаем на кнопку «Автоматически» и применяем для всех страниц нажатием на кнопку «применить к» и выбора святотатствующего пункта.
Далее переходим к пункту «Полезная область», нажатием на этот пункт.
Этап 4.
Полезная область — это область, где содержится текст, картинки, словом, основная информация. Программа сама неплохо различает эту область, но в случае если она ошибётся, можно либо убрать эту область, выбрав пункт «убрать область» в контекстном меню, а потом «создать область» в нём же и, растягиванием этой области за границы, «затянуть» в неё основной текст и картинки, либо отредактировать эту область так же, растягивая или уменьшая её, за границы. Чтобы применить автоматическое распознование ко всем страницам, нужно нажать на кнопку «Применить к» и выбрать соответствующий пункт.
Далее переходим к пункту «Поля».
Этап 5.
Поля — это рамки белого цвета вокруг полезной области. Мы можем выбрать их размер с помощью кнопок со стрелками в пункте «поля», указать в чём измеряется этот самый размер (в дюймах или миллиметрах). Кроме того, если мы хотим, чтобы размер полей сверху совпадал с размером полей снизу, нужно нажать на кнопку с цепью. Аналогичная ситуация с размером полей справа и слева. Если хотим применить ко всем нашим страницам такой размер полей, то нажимаем на кнопку «Применить к» и выбираем пункт «ко всем», аналогично действуем с другими вариантами.
Проблема в том, что размер каждой полезной области в книге для каждой страницы не всегда одинаковый, поэтому при фиксированном размере полей для каждой страницы, размер каждой страницы может получиться различным. Это выглядит не всегда красиво.
Для избавления от подобной проблемы, можно поставить галку в пункте «выровнять размеры с другими страницами», в таком случае программа проанализирует размеры всех страниц, найдёт самую большую и будет равняться на неё, то есть размеры всех страниц у нас будут равны самой большой странице. Размер этой самой большой страницы отмечен прерывистой линией (вторыми «полями»).
И в этих «Вторых полях» Можно задать выравнивание: по центру, по левому краю, по правому, снизу, сверху и т.д, то есть как будет располагаться в этих «вторых полях» наша страница. Это делается с помощью соответствующих кнопок под надписью «выровнять размеры с другими страницами»
Вот, например, выравнивание по правому нижнему краю:
Выравнивание по левому верхнему краю:
Но, скорее, это опции для извращенцев. Лучше выровнять по центру и применить результат ко всем страницам.
Переходим к пункту «Вывод», нажатием на него в левом верхнем окне.
Этап 6
Тут можно настроить результат вывода dpi (точек на дюйм). Я всегда оставляю стандартные значения.
Режим. Представлены 3 варианта: Чёрно-белый, Цветной, Смешанный.
Чёрно-белый вариант используется для страниц, на которых чёрно-белые изображения (именно чёрно-белый, без градаций серого) и текст. Причём, можно настроить жирность текста и линий изображения ползунком, вот пример таких экпериментов:
Жирность +50
Жирность -50:
Этот параметр настраивается для каждой страницы отдельно, но обычно я ставлю для всех страниц +30. Если у вас книга только с текстом или с чёрно-белыми картинками, лучше всего выбрать этот режим для всей книги с помощью нажатия на кнопку «Применить к» и выбора пункта «ко всем страницам».
Цветной режим используется для иллюстраций на всю страницу (как цветных, так и серых) или если не удалось настроить нормальный вид в других режимах. Со страницей ничего не происходит, она просто остаётся 1 в 1, как отсканированное изображение. При выборе этого режима появляются 2 пункта:
1. Белые поля. Поля вокруг полезной области заливаются белым цветом
2. Выровнять освещение. Идёт более плавный переход белого цвета страницы (или не совсем белый) в идеально-белый цвет полей.
Если у вас фото-альбом или книга, которая полностью состоит из цветных изображений, можно применить этот режим ко всем страницам с помощью нажатия на кнопку «Применить к» и выбора пункта «ко всем страницам».
Смешанный режим
Этот режим применяется для страниц с цветными или серыми иллюстрациями и обычного текста. Программа автоматически ищет картинки на странице, окутывает их невидимой рамочкой и ничего с ними не делает, а текст при этом изменяет. Выбрав его, мы увидим, что в правом боку центральной области появились пункты «Зоны картинок, Зоны заливки, Распрямление строк, Удаление пятен» и в левой области появился ползунок толщины линий:
Этим ползунком можно, как описано в пункте про чёрно-белый режим, настроить толщину линий.
В большинстве случаев программа правильно вычленяет картинки, но иногда следует вручную указать, какую область нужно оставить в покое. Для этого перейдем в режим «Зоны картинок». То, что программа посчитала за картинку, будет мигать синим цветом. Укажем новую зону, где у нас находится картинка. Для этого последовательными щелчками можно выбрать многоугольник, в котором будет находится наша картинка:
(Я выделил зону с картиной издательства)
Если нам не понравилась выделенная зона, её можно убрать кликнув на ней правой кнопкой мыши и выбрав соответствующий пункт. Та зона, которую мы выделили, будет сохранять свой стандартный вид.
Если зона картинок — эта та зона, которая позволяет сохранить стандартное изображение без преобразований, то зона заливки служит прямо противоположному. Она позволяет избавиться от мусора на странице. Работает она аналогично зонам заливки. В большинстве случаев программа сама находит мусор на странице, но иногда требуется вмешательство пользователя. Для того, чтобы избавиться от мусора на странице, нужно выделить зону, на которой этот мусор находится, и, последовательными нажатиями мыши, заключить её в многоугольник:
(Я выделил зону со словами «Энциклопедия. Загадки русской истории». Если страница желтоватая, можно закрасить зону в этот цвет, нажав на выделенной зоне правой кнопкой мыши и выбрать пункт «выбрать цвет», после чего курсор мыши превращается в пипетку, и, щелкнув на том цвете, который нас устраивает, мы получим зону, окрашенную в этот цвет. Можно удалить эту зону, выбрав в том же меню пункт «Удалить зону».
Пункт «Распрямление строк», который присутствует во всех режимах служит для, как это ни странно, распрямления строк, в книгах, которые не отсканированны, а, скажем, сфотографированы. Строки в таких книгах загнуты, поскольку сама страница во время фотографирования лежала неровно. Перейдя в этот режим, мы увидим такую картину:
По-умолчанию эта функция отключена, так как подразумевается, что изображение отсканировано и никаких действий применять не нужно. Но если у вас картинка с кривыми строками, то лучше его включить. Для этого нужно нажать на кнопку «изменить» под пунктом «Распрямление строк», откроется окно:
В этом окне можно выбрать автоматический режим распрямления строк или ручной. Если у вас вся книга кривая-косая, то лучше всего применить автоматический режим ко всем страницам, а потом вручную исправлять ошибки распрямления для некоторых страниц.
В противном случае лучше применять автоматический режим к отдельным страницам. Если страница так же будет оставаться косой — можно попробовать ручной режим.
Работа в ручном режиме довольно проста — нужно перемещая каждый участок границы подстраивать сетку так, чтобы между горизонтальными линиями умещалась строка (показано красными стрелками).
Поизвращаемся:
Результат:
Функция довольно неплохо работает в автоматическом режиме. Но я бы советовал вручную просмотреть каждую страницу. Иногда бывают довольно забавные казусы с этой функцией.
Удаление пятен. Иногда на странице находится грязь, точки, от которых хочется избавиться. Для этого и существует эта функция. Щёлкнув на пункте «Удаление пятен» и выбрав самый агрессивный режим в левой области, мы увидим, что наша страница покрылась красными точками:
Красные точки — это и есть те самые пятна, от которых нужно избавиться. Под пунктом «удаление пятен» можно выбрать режим: от самого «мягкого» (то есть вообще ничего не удалять) до самого «агрессивного» (то есть удалять всё, считая, в некоторых случаях, и знаки препинания, и некоторые буквы).
Точно так же, как и везде, можно применить выбранный режим ко всем страницам или только к той, на которой мы находимся, или к тем, которые мы выделили.
Как только вы всё обработали, нажимаем на кнопку с треугольником в верхнем левом углу и программа начинает последовательно обрабатывать все подряд изображения. Обработанные изображения будут сохранены в папку, которую мы указали в самом начале (директория выхода). Обычно это довольно долгий процесс, хотя на мощных пк он может идти быстрее. Поэтому можно отойти от компьютера на 30-60 минут и заняться своими делами.
Сохраненные изображения будут выброшены в формате tif. Для этого формата лучше использовать как можно меньше графических элементов, они сильно утяжеляют вес файла. А вот с обычным двухцветным текстом файлы не такие тяжёлые.
Преобразование tif в pdf.
На linux я использую программу gscan2pdf, она тоже с открытым исходным кодом, бесплатная, простая. И, по-моему, есть в центре приложений ubuntu без добавления лишних репозиториев. Но, бывает, подглючивает, или приходится довольно долго ждать загрузки файлов, когда размер всех tif файлов около 700-800 мб (но книга, весом в 700 мб, скорее, исключение). Но бывают такие случаи, особенно с безумным качеством сканирования. В таком случае я использую программу XnView Multi Platform.
Разберём самый «трудный» случай.
Запускаем программу, выбираем директорию, в которой находятся обработанные файлы, вызываем контекстное меню на выделенных файлах Преобразовать в → Выбираем формат (обычно jpg для множества графических файлов самый оптимальный вариант). Учтите, что файлы сохраняются в ту самую категорию, где лежат tif файлы. Возможно можно даже настроить, чтобы сохранялось в нормальную директорию, но за редкостью случаев, смысла в этом нет.
Запускаем программу gscan2pdf. Открываем файлы нажатием на папку или с помощью меню файл → открыть, выделяем нужные нам файлы и нажимаем на кнопку «открыть». После чего файлы будут открыты. Теперь можно их преобразовать в pdf или в djvu. Для этого нажимаем на кнопку «Сохранить». В графе «тип изображения» выбираем «pdf». Если хотим уменьшить ppi, то вписываем столько, сколько нужно, чтобы было читаемо (я обычно вписываю 150. Указываем тип сжатия. Можно поэкспериментировать, какой лучше сжимает. Но обычно я использую автоматический режим. Если вы хотите настроить качество изображения (скажем, уменьшить качество, чтобы стал меньше размер), то следует выбрать jpg. Там есть эта опция. Но для уменьшения размера лучше сохранять в djvu.
Жмём «сохранить», указываем куда и получаем готовый pdf файл.
Что касается интерактивного оглавления и распознования пока не пробовал, поищу аналоги fine reader'у.
Если есть дополнения и исправления, то напишите, пожалуйста, в комментариях.