Распознавание графических субтитров PGS с Blu-Ray с помощью FineReader (Конвертация SUP в SRT)

Страницы :  1, 2, 3 ... 19, 20, 21  След.
Ответить
 

m0j0

Стаж: 16 лет 5 месяцев

Сообщений: 2874

m0j0 · 25-Июн-09 13:22 (15 лет 5 месяцев назад, ред. 08-Фев-13 20:53)

Необходимый софт
  1. ABBYY FineReader 9 (относительно десятой версии см. отдельный пункт)
  2. SUPread
  3. DaRkY Subs Creator (можно скачать во вложении к этому сообщению)
1. Распаковка исходного sup на составляющие
Для начала нужно разложить sup на составляющие: шаблон srt с таймингами и собственно картинки с субтирами.
Для этого нам понадобится утилита SUPread. Делаем настройки как на картинке, затем жмем кнопки "Save SRT" и "Save bitmaps".
скрытый текст

Куда сохранить srt можно выбрать самому, а картинки утилита сохраняет в папке рядом с собой.
    Примечание:При несовпадении количества картинок и таймингов в папке с картинками нужно удалить файл line0000.png
2. Распознавание картинок
Теперь нужно распознать картинки.
Заходим в FineReader и жмём кнопку "Открыть". Открываем папку с картинками и жмём Ctrl+A.
Прежде чем открыть картинки делаем настройки как на картинках:
скрытый текст


После добавления картинок нужно выбрать разрешение для всех картинок, для этого нажимаем Ctrl+Shift+C и выполняем указанные на картинке действия:
скрытый текст
Оптимальным является разрешение 96 dpi.
После добавления картинок нужно выбрать зону распознавания. Жмем кнопку текст и выделяем всю картинку:
скрытый текст
Затем сохраняем шаблон областей (Области -> Сохранить шаблон областей...) и загружаем его для всех картинок (Области -> Загрузить шаблон областей...):
скрытый текст
Теперь на вкладке "Изображение" (2) жмём кнопку "Распознать документ".
После распознавания переходим к самому трудному процессу - проверки грамотности.
Жмём Ctrl+F7, делаем настройки как на картинке и проверяем грамотность.
скрытый текст
Весь основной процесс проделан, сохраняем готовый текст в HTML (Файл -> Сохранить как -> Документ HTML).
скрытый текст
Опции мы уже задали ранее, туда можно не заходить.
3. Соединение составляющих в готовый srt
Собрать субтитры и применить паттерны автозамен на выбор можно с помощью утилиты от постоянного релизера раздела HD Видео DaRkY.
Использование утилиты интуитивно понятно и не составляет труда. Но после получения готового srt, всё равно следует проверить субтитры в ручную на наличие ошибок, например, в DSRT или SubtitleWorskshop.
Некоторые возможности:
  1. Сохранение в разные кодировки (если в субтитрах есть специальные символы, то нужно выбирать кодировку UTF).
  2. Использование лога SubRip вытаскивания картинок с DVD - в графе "тайминги" нужно указать путь к логу (как его получить - в пункте "Распознавание субтитров с DVD").
Часто встречающиеся ошибки в распознавании
Исправление обрезанных таймингов
Исправление таймингов такого типа
Цитата:
5
00:01:35,929 -->
- I got you.
- No, no, no, no.
6
00:01:37,014 -->
I got you.
I got you.
делается в утилите от DaRkY. Для этого нужно указать имя субтитров в поле "Полные субтитры" и нажать кнопку "Исправить обрезанные тайминги". В папке с программой будет создан лог исправления.
Исправление нестандартного фона картинок из распаковываемого sup-файла
Эту инструкцию следует применять в том случае, если FineReader не может корректно распознать текст на картинках (один из вариантов проявления проблемы - нестандартный фон в картинках (оранжевый, коричневый и др.)).
Решение этой проблемы рассмотрим на примере официальной русской версии Adobe Photoshop CS4.
  1. Открываем одну из картинок.
  2. В правом верхнем углу выбираем рабочую среду "Автоматизация".
    скрытый текст
  3. Создаём новую операцию (запись начинается автоматически).
    скрытый текст
  4. Переходим в меню Изображение -> Режим и выбираем RGB.
  5. Выбираем рабочую среду рисование.
  6. В подменю "коррекция" выбираем иконку "Порог".
    скрытый текст
  7. Подводим стрелку максимально близко к вертикальной черте.
    скрытый текст
  8. Возвращаемся в рабочую среду "Автоматизация" и заканчиваем запись. Удаляем лишние пункты из записи.
  9. Заходим в меню "Файл" -> "Сценарии" -> "Обработчик изображений".
    скрытый текст
  10. Ждём когда картинки обработаются и переходим к распознаванию в FineReader.
При испоьзовании стоит учитывать, что инструкцию не обязательно выполнять точь-в-точь, можно что-то добавлять/изменять. Но если ничего не получается, то выкладывайте обрабатываемый sup в теме, вам обязательно помогут.

Решение через EmEditor и регулярные выражения:
Предисловие
Открываем srt в текстовом редакторе EmEditor и выполняем последовательно шаги:
1. Нажимаем Ctrl+F, ставим галку на "Регулярные выражения", открываем дополнительное меню "Заменить".
2. В части "Найти" пишем то что собираемся заменять, в части "Заменить на" пишем то, на что собираемся менять.
3. Нажимаем "Заменить всё".
Неразрывные пробелы после знака прямой речи (-)
Заменить
Код:
(\n|<i>|</i>)-\s*(\S)
на
Код:
\1- \2
000 распознается как ООО
Заменить
Код:
(\d\s*)(O|О){3}
на
Код:
\1000
Замена более чем двух точек идущих подряд на троеточие
Заменить
Код:
\.{2,}
на
Код:
Замена дефисов (-) на тире (—)
Заменить
Код:
(\s|\n|<i>|</i>)-(\s|\n|<i>|</i>)
на
Код:
\1–\2
-- (символ обрыва речи, аналог многоточия в литературе) распознается «-» или «—», замена на многоточие
Заменить
Код:
(\w|\d)-+(?!\w|\d)
на
Код:
\1…
Желательно не через автозамену, т.к. возможны сбои.
Кавычки-ёлочки «» вместо машинных ""
Для открывающей заменить
Код:
(\s|\n|<i>)"(\S)
на
Код:
\1«\2
Для закрывающей заменить
Код:
(\S)"
на
Код:
\1»
После автозамены рекомендуется сделать поиск в блокноте по символу " на случай несрабатывания паттерна.
Распознавание субтитров с DVD
Для распознавания субтитров с DVD дополнительно нас понадобятся ещё две программы: PgcDemux и SubRip.
Разбираем исходный DVD на составляющие в PgcDemux:
скрытый текст
Открываем DVD в SubRip и распаковываем субтитры на картинки:
скрытый текст

Настройки на последней картинке не следует воспринимать буквально, их нужно подбирать индивидуально под каждые субтитры.
После вытаскивания всех картинок сохраняем лог с таймингами (он может быть использован вместо srt из sup):
скрытый текст
Нажимаем кнопку "Save As" и во всплывающем окошке "Yes".
Дальнейшие действия аналогичны аналогичны инструкции распознавания субтитров с Blu-Ray.
Дополнение к инструкции относительно десятой версии FineReader
Т.к. в десятой версии генерируемые html отличаются от html девятой версией, то сохранять их надо по другому.
Изменения относительно FineReader'a:
скрытый текст

Изменения относительно склеивания в утилите:
скрытый текст
В поле "Фразы" нужно указывать название сохраняемых html'ек, которое указывали в ФайнРидере (без расширения файла).
Например:
1. Если утилита лежит в папке с html'ками, то надо указать только название из ФайнРидера (без расширения файла).
2. Если html'ки лежат во вложенной папке в папке с утилитой, то нужно указать путь до папки и имя html'ек (например htm\line). Можно указать полный путь до папки.
Во время склеивания программа может подвиснуть (до нескольких минут).
Настройки для FineReader 11




Всё, субтитры готовы!
[Профиль]  [ЛС] 

m0j0

Стаж: 16 лет 5 месяцев

Сообщений: 2874

m0j0 · 25-Июн-09 13:24 (спустя 2 мин., ред. 11-Ноя-12 05:39)

Offline-версия версия инструкции
За помощь в создании инструкции огромное спасибо MaLLIeHbKa и -DaRkY-!
Предыдущий вариант инструкции (с srtmaker) - http://paste.org.ru/?qegwrr .
Тема на официальном форуме ABBYY про временную папку FineReader 10.
[Профиль]  [ЛС] 

sergey_n

Стаж: 17 лет 2 месяца

Сообщений: 1394


sergey_n · 25-Июн-09 14:04 (спустя 40 мин.)

А убрать лишние пустые строки в итоговом файле?
[Профиль]  [ЛС] 

m0j0

Стаж: 16 лет 5 месяцев

Сообщений: 2874

m0j0 · 25-Июн-09 14:07 (спустя 2 мин.)

sergey_nadtochiy
Всмысле? Такого не наблюдаю..
[Профиль]  [ЛС] 

zackary

Top User 12

Стаж: 17 лет 2 месяца

Сообщений: 444

zackary · 25-Июн-09 18:36 (спустя 4 часа)

m0j0
Помнишь ситуацию когда ты, а точнее твой FineReader не смогли обнаружить ошибки лицензионщиков ?, так вот лучше проверять на ошибки Word'ом после того как уже полностью готовы сабы. Есть пару вариантов как именно это сделать.
[Профиль]  [ЛС] 

m0j0

Стаж: 16 лет 5 месяцев

Сообщений: 2874

m0j0 · 25-Июн-09 18:47 (спустя 11 мин., ред. 25-Июн-09 18:47)

zackary
Я сам проверяю Вордом потом, заодно ещё и сабы целиком потом просматриваю, но здесь вставлять в инструкцию не стал. Это уже лежит на совести релизера, доводить сабы до блеска или нет.
Цитата:
так вот лучше проверять на ошибки Word'ом после того как уже полностью готовы сабы
В Файнридере тоже надо проверить, он показывает неуверенно распознанные символы.
zackary писал(а):
а точнее твой FineReader не смогли обнаружить ошибки лицензионщиков
Возможно это был мой косяк, забыл поставить галку "останавливаться на несловарных словах"
А может это были косяки твоего суприпа?!
[Профиль]  [ЛС] 

MaLLIeHbKa

VIP (Заслуженный)

Стаж: 17 лет 11 месяцев

Сообщений: 3673

MaLLIeHbKa · 26-Июн-09 10:17 (спустя 15 часов, ред. 26-Июн-09 10:29)

m0j0
Спасибо (: Только хорошо бы в заголовок побольше ключевых слов набить, для удобства поиска. Что-нибудь типа:
Цитата:
Распознавание графических субтитров (PGS) с Blu-Ray, конвертация SUP в SRT
СапРид не прописывает в заголовки сохраняемых PNGшек разрешение. ФайнРидер в подобных случаях пытается «угадать» разрешение для каждой картинки самостоятельно (о чём выводит предупреждение). Иногда он угадывает «правильно» (300—450 dpi), иногда — неправильно (50—100 dpi). В последнем случае может существенно пострадать качество распознавания. Чтобы избежать подобных эксцессов, необходимо записать в заголовок каждой картинки разрешение в 300 dpi. Сделать это можно практически любым графическим редактором, поддерживающим групповую работу с файлами (IrfanView, ACDSee, Photoshop в конце-концов (: и т.д.). AFAIK, это можно сделать и в самом ФайнРидере (вроде, встречала упоминание в мануале), надо попробовать (:
… И ещё стОит проверить результат (output.srt) на валидность формата с помощью DSRT / SubtitleWorskshop / etc. (:
zackary писал(а):
так вот лучше проверять на ошибки Word'ом после того как уже полностью готовы сабы.
Да, ФайнРидер пользуется вордовским спелл-чекером, но как-то очень избирательно, даже с включенной галкой «останавливаться на несловарных словах». Поэтому, по-хорошему, пройтись спелл-чекером действительно надо дважды: в ФайнРидере — для неуверенно распознанных символов, в ворде — для собственно правописания.
[Профиль]  [ЛС] 

m0j0

Стаж: 16 лет 5 месяцев

Сообщений: 2874

m0j0 · 26-Июн-09 10:32 (спустя 14 мин., ред. 26-Июн-09 10:32)

MaLLIeHbKa писал(а):
AFAIK, это можно сделать и в самом ФайнРидере (вроде, встречала упоминание в мануале)
Для одного
Для всех
Ctrl+Shift+C
Цитата:
Распознавание
[Профиль]  [ЛС] 

MaLLIeHbKa

VIP (Заслуженный)

Стаж: 17 лет 11 месяцев

Сообщений: 3673

MaLLIeHbKa · 26-Июн-09 10:43 (спустя 11 мин., ред. 26-Июн-09 10:45)

m0j0 писал(а):
Для всех
Да, точно. Спасибо (:
Ещё можно дописать про доставание форсированных таймингов из полных с помощью SupRip'а и волшебной галочки «only forced» (:
скрытый текст
m0j0 писал(а):
Цитата:
Распознавание
(:
m0j0 писал(а):
Распоковка исходного sup на составляющие
m0j0 писал(а):
Распознование картинок
[Профиль]  [ЛС] 

m0j0

Стаж: 16 лет 5 месяцев

Сообщений: 2874

m0j0 · 26-Июн-09 10:45 (спустя 1 мин.)

MaLLIeHbKa писал(а):
Ещё можно дописать про доставание форсированных таймингов из полных с помощью SupRip'а и волшебной галочки «only forced» (:
Добавить можно, но процедура синхронизации шаблона и текста пока не автоматизирована
[Профиль]  [ЛС] 

MaLLIeHbKa

VIP (Заслуженный)

Стаж: 17 лет 11 месяцев

Сообщений: 3673

MaLLIeHbKa · 26-Июн-09 10:47 (спустя 2 мин.)

m0j0 писал(а):
пока не автоматизирована
Автоматизирована (: Я сюда на выходных зааттачу тулзу для этих целей.
[Профиль]  [ЛС] 

m0j0

Стаж: 16 лет 5 месяцев

Сообщений: 2874

m0j0 · 26-Июн-09 10:49 (спустя 1 мин.)

MaLLIeHbKa
Ок, тогда и добавим
[Профиль]  [ЛС] 

Sherbatski

Top Loader 01* 100GB

Стаж: 16 лет 1 месяц

Сообщений: 608

Sherbatski · 26-Июн-09 11:49 (спустя 59 мин., ред. 26-Июн-09 11:49)

На самом деле, sergey_nadtochiy прав, и после получения .srt сабов рекомендовано сделать ещё пару манипуляций по удалению ненужных строк.
Берём EmEditor, заходим в "Поиск" -> "Заменить", обязательно в списке настроек ставим галочку на "Регулярные выражения" и:
1) В части "Найти" пишем \n\n , в части "Заменить на" пишем \n , нажимаем "Заменить всё".
2) В части "Найти" пишем ^(0{0,2}[1-9]|0?[1-9][0-9]|[1-9][0-9][0-9]|[1-9][0-9][0-9][0-9])$ , в части "Заменить на" пишем \n\0 , нажимаем "Заменить всё".
Далее, идём в самый вверх текстового файла, удаляем первую пустую строку, что бы первый тайминг субтитров был на её месте и сохраняем.
[Профиль]  [ЛС] 

m0j0

Стаж: 16 лет 5 месяцев

Сообщений: 2874

m0j0 · 26-Июн-09 12:07 (спустя 18 мин., ред. 26-Июн-09 12:07)

Sherbatski
Спасибо! Добавил.
Но если потом текст в Ворд не перкидывать, то это не сильно нужно - на просмотр не влияет
[Профиль]  [ЛС] 

MaLLIeHbKa

VIP (Заслуженный)

Стаж: 17 лет 11 месяцев

Сообщений: 3673

MaLLIeHbKa · 26-Июн-09 13:14 (спустя 1 час 6 мин., ред. 26-Июн-09 13:14)

Sherbatski писал(а):
^(0{0,2}[1-9]|0?[1-9][0-9]|[1-9][0-9][0-9]|[1-9][0-9][0-9][0-9])$
Это очень извращенный способ выделения номеров фраз (:
Во-первых, кто сказал, что не может быть фразы (текста), состоящего из одно числа (и этот паттерн его сматчит, а не должен)? Пример (выдуманный):
скрытый текст
Цитата:
56
00:12:50 --> 00:12:56
Я сказал, что нам нужны
12
57
00:12:57 --> 00:13:00
Нет.
58
00:13:01 --> 00:13:10
13
59
00:13:11 --> 00:13:21
Минимум.
В этом примере Ваш паттерн кроме 4х номеров фраз сматчит ещё и два числа в их текстах.
Во-вторых, 9999 фраз — это, конечно, с запасом, но как-то неструктурно что ли (: Тогда уж проще:
Код:

^(\d+)$
и вуаля — матчится любая строка из одного числа (т.е. то же, что у Вас, только короче) (:
В-третьих, чем восстанавливать CRLF'ы перед номерами фраз — не проще ли их изначально не удалять (первой заменой)? (:
Итого вместо пунктов 1) и 2) достаточно сделать замену:
Код:

\n\n(?!^\d+$)
на
Код:

\n
В вышеприведённом примере этот паттерн слажает только на 56й фразе — не уберёт лишнюю пустую строку вот тут:
скрытый текст
Цитата:
56
00:12:50 --> 00:12:56
Я сказал, что нам нужны
12
Но на такие строки будет ругаться DSRT (это нарушение формата), и их проще исправить руками (ибо их, как правило, очень немного).
Можно ещё лучше (без подобной редковстречающейся лажи), но чуть сложнее, поищу в закромах вечером, с ходу придумать не могу (могу двумя заменами, но это некрасиво; вообще идея в том, чтобы кроме следующей строки (которая не должна быть номером фразы) проверять ещё и строку через одну (которая не должна быть таймингом), но negative lookahead search не поддерживает символы новой строки) (:
m0j0 писал(а):
то это не сильно нужно - на просмотр не влияет
Это нарушение формата, о чём тебе скажет DSRT при проверке на валидность (:
[Профиль]  [ЛС] 

Sherbatski

Top Loader 01* 100GB

Стаж: 16 лет 1 месяц

Сообщений: 608

Sherbatski · 27-Июн-09 23:34 (спустя 1 день 10 часов, ред. 27-Июн-09 23:34)

MaLLIeHbKa, это выражение писал не я лично, уже не помню откуда его скопипастил. Спасибо за информацию, буду пользоваться новым вариантом =)
*Ушёл читать fm о регулярных выражениях*
[Профиль]  [ЛС] 

m0j0

Стаж: 16 лет 5 месяцев

Сообщений: 2874

m0j0 · 28-Июн-09 15:22 (спустя 15 часов)

MaLLIeHbKa
Sherbatski
Отписывайтесь о часто встречающихся косяках в распозновании.
У меня например "е" с "с" путает, в "- Д" никогда пробел не ставит, косую английскуй ай иногда как / распознает. В основном конечно с пробелами косяки..
Наберем побольше да добавлю в инструкцию
[Профиль]  [ЛС] 

MaLLIeHbKa

VIP (Заслуженный)

Стаж: 17 лет 11 месяцев

Сообщений: 3673

MaLLIeHbKa · 28-Июн-09 19:02 (спустя 3 часа, ред. 28-Июн-09 19:02)

m0j0 писал(а):
в "- Д" никогда пробел не ставит
Или (очень) часто вместо нормальных пробелов после символа прямой речи ставит неразрывные (:
Лекарство (обеих проблем) — замена:
Код:

(\n|<i>)-\s*(\S)
на:
Код:

\1- \2

Так же вместо «000» (три нуля, к примеру, в числах — «20 000 лье под водой») часто распознаёт «ООО» (три буквы «О»). Замену, думаю, сам придумаешь (:
«--» (символ обрыва речи, аналог многоточия в литературе) нередко распознаёт как «-» или «—», но я их всё равно на многоточия меняю:
скрытый текст
Код:

(\w|\d)-+(?!\w|\d)
на:
Код:

\1…
Это иногда сбоит, так что лучше вместо «replace all» — пошаговый «replace»
Ещё по типографике: замена N (N > 1) подряд идущих точек на троеточие:
скрытый текст
Код:

\.{2,}
на:
Код:


замена дефисов «-» на тире «—» (в прямой речи и внутри предложений):
скрытый текст
Код:

(\s|\n|<i>)-(\s|\n|</i>)
на:
Код:

\1—\2
Кавычки-ёлочки «» вместо безликих машинных "":
скрытый текст
Открывающая:
Код:

(\s|\n|<i>)"(\S)
на:
Код:

\1«\2
Закрывающая:
Код:

(\S)"
на:
Код:

\1»
Сбоит на вложенных кавычках (которые должны быть лапками “”, а не ёлочками «»), так что если число открывающих не сошлось с числом закрывающих — надо пройтись руками.

Ещё любит не к месту вставлять теги <b> — вокруг курсивной «Я», к примеру.
В общем, надо ботать режим распознавания с обучением (:
[Профиль]  [ЛС] 

m0j0

Стаж: 16 лет 5 месяцев

Сообщений: 2874

m0j0 · 28-Июн-09 19:04 (спустя 1 мин.)

Sherbatski писал(а):
*Ушёл читать fm о регулярных выражениях*
Пойду-ка я тоже почитаю
Я как то постаринке вручную правил, а тут такая тема
MaLLIeHbKa писал(а):
«--» (символ обрыва речи, аналог многоточия в литературе) нередко распознаёт как «-» или «—», но я их всё равно на многоточия меняю:
Так помойму только в англ. сабах делают, в нашинских многоточия ставят.
MaLLIeHbKa писал(а):
Ещё любит не к месту вставлять теги <b> — вокруг курсивной «Я», к примеру.
Или наоборот не ставить тег <i> вокруг неё
[Профиль]  [ЛС] 

MaLLIeHbKa

VIP (Заслуженный)

Стаж: 17 лет 11 месяцев

Сообщений: 3673

MaLLIeHbKa · 28-Июн-09 19:06 (спустя 2 мин.)

m0j0 писал(а):
Так помойму только в англ. сабах делают
Да, но там используют и два дефиса, и многоточие — когда как. Закономерности я выявить не смогла, нагуглить тоже ничего осбо не получилось. Если кто в курсе, когда именно у них ставят «…», а когда «--», и в чём разница — буду благодарна, если ткнёте лицом в мануал (:
[Профиль]  [ЛС] 

m0j0

Стаж: 16 лет 5 месяцев

Сообщений: 2874

m0j0 · 28-Июн-09 19:14 (спустя 7 мин., ред. 28-Июн-09 19:14)

MaLLIeHbKa
Помойму это просто разные студии по разному делают, или просто разные люди Думаю, не стоит заморачивать на этом голову
[Профиль]  [ЛС] 

MaLLIeHbKa

VIP (Заслуженный)

Стаж: 17 лет 11 месяцев

Сообщений: 3673

MaLLIeHbKa · 28-Июн-09 19:26 (спустя 12 мин., ред. 28-Июн-09 19:26)

m0j0
Как раз фишка в том, что обе формы нередко встречаются в пределах одних и тех же сабов. «--» особенно часто встречается в комментах. Я раньше думала, что «…» — это скорее признак интонации, а «--» — когда кто-то или что-то перебивает речь (некое событие (взрыв вертолёта), другой собеседник, etc.), но не так давно накнулась на ряд контрпримеров по обоим пунктам.
m0j0 писал(а):
Думаю, не стоит заморачивать на этом голову
Заморачиваться-то, конечно, может и не стоит (в бессмысленном и беспощадном отечественном фансабе, я так понимаю, «--» употреблять не принято), но просто интересно (: Знакомых фансаберов практически нет, уточнить не у кого.
P.S.: Может, всё же поправишь? (:
скрытый текст
m0j0 писал(а):
Распоковка исходного sup на составляющие
m0j0 писал(а):
Распознование картинок
[Профиль]  [ЛС] 

m0j0

Стаж: 16 лет 5 месяцев

Сообщений: 2874

m0j0 · 28-Июн-09 19:32 (спустя 5 мин.)

скрытый текст
MaLLIeHbKa писал(а):
m0j0 писал(а):Распоковка исходного sup на составляющие
m0j0 писал(а):Распознование картинок
чему меня в школе учили
когда уж десятую оперу выпустят, там вроде спеллчекер будет встроенный
[Профиль]  [ЛС] 

zackary

Top User 12

Стаж: 17 лет 2 месяца

Сообщений: 444

zackary · 28-Июн-09 21:33 (спустя 2 часа 1 мин., ред. 28-Июн-09 21:33)

Что за ерунда у меня получается, никто не в курсе ? Пообрезало верхушки почти всем сабам как под насадку.
Субтитры с Blu-Ray "Dobermann" French.
[Профиль]  [ЛС] 

MaLLIeHbKa

VIP (Заслуженный)

Стаж: 17 лет 11 месяцев

Сообщений: 3673

MaLLIeHbKa · 28-Июн-09 23:56 (спустя 2 часа 23 мин., ред. 28-Июн-09 23:56)

zackary
Перед загрузкой в ФайнРидер, конвертни их в grayscale-палитру любым графическим редактором, а так же опусти яркость (-100) и задери яркость и контраст (+100).
[Профиль]  [ЛС] 

zackary

Top User 12

Стаж: 17 лет 2 месяца

Сообщений: 444

zackary · 29-Июн-09 08:49 (спустя 8 часов)

MaLLIeHbKa писал(а):
zackary
Перед загрузкой в ФайнРидер, конвертни их в grayscale-палитру любым графическим редактором, а так же опусти яркость (-100) и задери яркость и контраст (+100).
Спасибо, так намного лучше.
[Профиль]  [ЛС] 

BOLiK_Ltd

Top User 06

Стаж: 18 лет

Сообщений: 1026

BOLiK_Ltd · 29-Июн-09 13:52 (спустя 5 часов)

Господа, а зачем вам такие сложности? Неужели ни кто не пробывал SupRip и BDSup2Sub?
[Профиль]  [ЛС] 

m0j0

Стаж: 16 лет 5 месяцев

Сообщений: 2874

m0j0 · 29-Июн-09 14:05 (спустя 13 мин., ред. 29-Июн-09 14:05)

BOLiK_Ltd
Не факт что сложнее. Хотя бы не надо самому буковки распознавать. И практически нет ошибок в распозновании, по сравнению с аналогами.
Вот как например ты будешь распознавать китайские сабы?!
Вот какие возможности у Файнридера
К тому же Файнридер профессиональная OCR-утилита, а не мелочь какая-то.
ABBYY и Касперыч - это практически единственные компании по которым Россию знают за рубежом.
[Профиль]  [ЛС] 

BOLiK_Ltd

Top User 06

Стаж: 18 лет

Сообщений: 1026

BOLiK_Ltd · 29-Июн-09 14:23 (спустя 17 мин.)

m0j0
Я их не распознаю. Для меня это экзотика. Как и для большинства. Я так понимаю, что инструкцию написали для массового использования, а не для того, как рипнуть субтитры экзотических для наших мест языков? А самые распространённые, европейские, с помошью SupRip пожалуйста. Ну а китайские можно рипнуть BDSup2Sub. После чего подсунуть их тому же SubRip (если он конечно работает с иероглифами).
Цитата:
К тому же Файнридер профессиональная OCR-утилита, а не мелочь какая-то.
В этом меня можно не убеждать. Я говорю прежде всего об эффективности работы. И вот по эффективности, прежде всего быстроте и качеству, метод предложенный в шапке, проигрывает по всем статьям этим двум маленьким бесплатным утилитам. Знаю, потому, что пробывал этот метод, пока на hdtracker не наткнулся на упоминание этих маленьких утилит.
[Профиль]  [ЛС] 

m0j0

Стаж: 16 лет 5 месяцев

Сообщений: 2874

m0j0 · 29-Июн-09 14:29 (спустя 5 мин.)

BOLiK_Ltd
Сколько примерно займет времени распознавания русских сабов (~~1000 картинок) с нуля (т.е. без кеша букв)?
Файнридером можно по минимуму управиться за 20-25 минут, с поверхностной проверкой грамотности. Если посеръезней посмотреть то минут 40.
BOLiK_Ltd писал(а):
прежде всего быстроте и качеству
Качество у Файнридера, потому что он - серьезная утилита. У него нет проблем с ы, I и прочими, за редкими исключениями.
Видел я сабы распознанные саприпом...
[Профиль]  [ЛС] 
 
Ответить
Loading...
Error