Распознавание субтитров на DVD-Video, из файлов IDX/Sub и SUP (DVD, BD)

Ответить
 

germanm2000

Стаж: 16 лет 5 месяцев

Сообщений: 1380

germanm2000 · 17-Ноя-11 23:17 (13 лет назад, ред. 08-Июл-17 00:59)

Распознавание субтитров на DVD-Video, из файлов IDX/SUB и SUP (DVD, BD)
с помощью SubRip, IdxSub2Srt и других программ.

Если в данном топике отсутствуют какие-либо иллюстрации, то они всегда доступны в Offline-версиях основных инструкций с картинками.
Введение
Субтитровые потоки DVD-Video дисках находятся вместе с видео- и аудиопотоками в контейнерах VOB. Они представляют собой 4-х битные изображения, которые выводятся на экран в определенные промежутки времени, заданные таймингами субтитров. При необходимости субтитровые потоки могут быть извлечены с помощью специальных программ, таких как PgcDemux, VobEdit, VobSub и других. К примеру, PgcDemux извлекает субтитры в файлы SUP (картинки+тайминг в одном флаконе), а VobSub - парными файлами IDX/SUB (картинки и тайминг отдельно).
Что такое субтитры
Что такое субтитры.
Опубликовано 01.03.2011 на сайте subs.com.ru Автор: Antar
Ознакомительная статья для новичков в этой области
Субтитры (также: сабтитры, от англ. subtitles — дословно: подписи снизу; (жарг.) сабы, сокращение от «сабтитров») — текстовое сопровождение видео, дублирующее или дополняющее звук фильма или передачи. Преимущественно в субтитрах отражена речь персонажей.
Обычно субтитры оформляют как текст, написанный шрифтом среднего размера и расположенный в нижней части экрана при просмотре видео. Субтитры полезны людям, плохо слышащим звук в фильмах, или изучающим язык. Однако субтитры часто используют и для просмотра фильма (часто: аниме) с оригинальным аудио без звукового перевода. (В некоторых странах — например, в Израиле, или Болгарии — это обычный способ просмотра, а голосовой перевод используется только в фильмах для детей и в мыльных сериалах.) Субтитры иногда содержат дополнительную информацию о происходящем на экране — например, режиcсёрские комментарии к фильму и (или) объяснение сложных для понимания мест.

Употребление термина
Слово «субтитры» — (от франц. titre — качество, характеристика, БСЭ) заимствование английского «subtitles» (сабтайтлс). В русском языке оно означает законченную дорожку текстового сопровождения к видео. Помимо произношения «субтитры» встречается также «сабтитры», но реже.
Слово «субтитр» в единственном числе используется для выделения одной строки из субтитров.
Характеристики
Субтитры различаются по степени детализации событий. Обычно субтитрируются только реплики персонажей. Если субтитры служат для перевода фильма, то в них комментируются и надписи, появляющиеся в кадре. В том же случае, когда субтитры создают для людей с ограничениями слуха, часто в них фиксируют и важные звуковые события — например, в тот момент, когда герой фильма ужасов слышит зловещий скрежет, может появиться субтитр «(скрежет)».
Субтитры могут быть включены в видеоряд, наложены поверх изображения или получены из отдельного файла с их текстом. Обычно DVD-диски с фильмами содержат субтитры к ним. Распространено создание кустарных субтитров, так называемый фэнсаб. Такие субтитры распространяются либо вместе с видео (вшитые cубтитры, часто так-же жесткие от англ. hardsubs), либо в виде отдельных файлов (внешние, отключаемые, иногда мягкие субтитры).
Субтитры в цифровой форме
Субтитры к видео в цифровой форме (DVD-video, MPEG-2, MPEG-4) могут быть:
вшитые (от англ. Hard subtitles, также называются жёсткими)
— изображение с текстом субтитров накладывается на исходное видео при процессе создания итогового файла (кодировании). Такие субтитры не накладывают никаких дополнительных требований на плееры, но их невозможно отключать, и они ухудшают качество кодируемого видео из-за увеличения мелких контрастных деталей в кадре. Качество и сложность вшитых субтитров могут быть максимальными, поскольку их создание может происходить значительно дольше и скрупулёзнее, чем их просмотр.
пререндеренные (от англ. prerendered subtitles)
— субтитры представляют собою уже готовые изображения, хранящиеся раздельно от видео (хотя, быть может, и в одном файле с ним). Такие субтитры требуют поддержки со стороны плееров, обычно не слишком высокого качества (из-за того, что для хранения таких субтитров используются растровые форматы с малым количеством цветов, что не позволяет выполнять антиалиасинг шрифтов), однако не имеют проблем с представлением текстов на разных языках, и не создают чрезмерной нагрузки на плеер. Именно в таком виде находятся субтитры на DVD-video.
программные (также называемые мягкими — жарг. от англ. soft subtitles)
— субтитры, представляющие собою текст, зачастую с элементами разметки (размер, цвет, гарнитура, положение на экране). Предъявляют, по сравнению с остальными вариантами, более высокие требования к воспроизводящему оборудованию (программе) в связи с необходимостью отрисовывать шрифты (обычно векторные) и возможные эффекты в реальном времени. Также у некоторых форматов существуют проблемы с представлением текста на нескольких языках из-за использования одной однобайтной кодировки.
Одним из главных преимуществ пререндеренных и программных субтитров является возможность наличия нескольких переводов (например, для нескольких языков), а также возможность отключать субтитры (что невозможно для вшитых субтитров).
Субтитры так же подразделяются на две категории по форме, в которой хранятся:
Встроенные — находятся в одном файле с видео.
Внешние — представляют собою один или несколько отдельных файлов, обычно с именем полностью или частично совпадающим с именем видео-файла, но с другим расширением: SRT, SUB, TXT (подробнее см. ниже).
Популярные форматы внешних субтитров
srt — текстовый формат субтитров программы SubRip. Изначально не поддерживал элементов офромления текста, в дальнейшем был расширен поддержкой цветов и начертаний символов (курсив, жирность текста).
smi (smil) — текстовый формат субтитров, основанный на SGML. Предусматривает практически все возможности для оформления текста, поддерживаемые стандартами HTML и CSS.
s2k — текстовый формат субтитров программы Sasami.
ssa — текстовый формат субтитров программы Sub Station Alpha. Предусматривает задание цвета, положения символов, размер букв, гарнитуру; позволяет применять сложные видео-эффекты в отношении символов (затенение, движение, повороты и т. д.); может содержать текст в нескольких различных кодировках.
ass — текстовый формат субтитров Advanced Sub Station Alpha (впервые реализовано в программе Medusa), дальнейшее развитие формата ssa.
sub/idx — двоичный формат пререндерных субтитров для программы VobSub. Иногда называются «субтитрами формата Vobsub», хоть это и не очень верно. Представляют собой графические субтитры, извлеченные из DVD (например, при помощи DVDDecrypter-а).

По разным причинам возникает потребность в конвертации графических субтитров в текстовый формат SRT. Под конвертацией в данном случае подразумевается оптическое распознавание символов (англ. Optical Character Recognition, OCR), т.е. перевод изображений в последовательность кодов, использующихся для представления в текстовом редакторе. Субтитры на DVD-Video можно распознавать с помощью программы SubRip, поддерживающей работу с субтитрами на более чем 30 языках. SubRip умеет также обрабатывать и IDX/SUB, но не всегда это хорошо делает, поэтому для IDX/SUB предпочтительнее использовать программу IdxSub2Srt. Распознавание в обеих программах выполняется в ручном режиме, поэтому скорость обработки напрямую зависит от активности и навыка пользователя. Кроме того, большое значение имеет и качество самих субтитров.
Про обработку SUP и иных методах конвертации читайте в разделе "Распознавание субтитров SUP (DVD, BD)".
Работа с SubRip
Как известно, справки к программе, где были бы описаны все тонкости работы с ней, увы, не существует. Видимо, предполагается, что пользователь сможет разобраться во всем самостоятельно по надписям и всплывающим подсказкам. Отсутствие справки, думаю, в значительной степени осложняет новичкам процесс освоения данной программы. Надеюсь, что представленные ниже фрагменты статей, освещающие в отличие от "Сборника статей по работе с субтитрами" работу с более свежей версией SubRip, им в этом деле помогут. Уважая труд авторов первоисточников, перекраивать содержимое с целью сведения фрагментов в одну общую статью не счел нужным, несмотря на то, что в них присутствуют, конечно, и общие моменты. Таким образом, фрагменты статей приведены здесь практически без поправок.
Свежую версию программы всегда можно скачать с VideoHelp.com.
Крис «мыщъх» Касперски. Английский с турбонаддувом: хакерский подход к изучению языка (фрагмент)
Английский с турбонаддувом: хакерский подход к изучению языка
(фрагмент)
©Крис «мыщъх» Касперски.
опубликовано 20.03.2007
Оригинал статьи
Добывать субтитры с DVD приходится путем OCR, что с учетом низкого разрешения довольно затруднительно, но… все-таки возможно! Существует не так уж много программ, предназначенных для решения этой задачи, и лучше всех с ней справляется SubRip, пользующийся большой популярностью среди риперов, поддерживающий больше дюжины языков и распространяемый совершенно бесплатно.
SubRip за работой
SubRip – это самообучающаяся программа, работающая в кооперации с естественным интеллектом, превзойти который еще никому не удалось. SubRip всего лишь разбивает текст на отдельные символы — матрицы — и выводит его на экран, подсвечивая текущую матрицу прямоугольным курсором и требуя ввести соответствующий ей символ с клавиатуры. Если соседние символы соприкасаются, SubRip оказывается не в состоянии разобрать их по отдельности, и они образуют единую мегаматрицу, состоящую из двух (реже — трех) символов, которые также должны быть введены человеком с клавиатуры.
Однажды введенная матрица сохраняется в памяти и сравнивается со всеми остальными. Если количество различий не превышает некоторого порога (задаваемого в настройках через меню Опции/Настройка OCR), символ считается успешно распознанным. В противном случае SubRip обращается за консультацией к естественному интеллекту.
Темп обучения программы (равно как и скорость распознавания) растет экспоненциально. Чем больше символов узнает SubRip, тем реже он дергает человека.
Некоторые символы, такие, например, как знак «%», разбиваются неправильно, и в матрицу попадает лишь верхний кружок. Расшить матрицу можно либо кнопкой «>>», либо горячей клавишей <ALT-Right>.
Расширение матрицы
На некоторых дисках субтитры имеют сглаживающую «окантовку», усложняющую задачу распознавания, поскольку сглаживание каждый раз выполняется слегка по-разному (это зависит от того, какой символ окажется рядом). Специально на этот случай предусмотрена функция изменения цвета текста (точнее, исключения одного или более цветов, окрашивающих шрифт). Нажимаем кнопку «Изменить цвет текста» (или давим горячую клавишу <Alt-C>) и пробуем подобрать оптимальную комбинацию.
Изменение цвета текста

В конечном счете мы получим текстовой файл, содержащий субтитры и… некоторое количество ошибок, так что загрузить его в Word и выполнить хотя бы беглую орфографическую проверку не помешает.
Андрей Яковлев. Авторинг в DivX6 (фрагмент)
Авторинг в DivX6
(фрагмент)
©Андрей Яковлев
опубликовано 06.03.2007
Оригинал статьи
Запустите SubRip, и нажмите левую верхнюю кнопку с надписью "VOB".
Начало работы
Предположим, что у нас данные основного фильма находятся в файле VTS 01 0.IFO.
В появившемся окне нажмите на кнопку «Откр.IFO» и откройте файл VTS 01 0.IFO. Внизу отобразится список файлов, находящихся в каталоге, и, если в разделе «Vob(Sub) файлы» выбран режим «Автовыбор сопоставленных VOB’ов», то будут выбраны все VOB’ы, исключая тот, у которого название оканчивается на ноль (VTS 01 0.VOB).
Проследите, чтобы в разделе «Поток языка» не был выбран режим «Показать все 32 потока». Тогда в выпадающем списке мы увидим только те потоки субтитров, которые реально есть в VOB’ах. Выберите поток субтитров, который нужно сохранить — «12 Russian» (здесь для примера показаны несколько потоков субтитров, но мы помним, что в нашем случае поток субтитров только один — русский, поэтому у нас выбора не будет).
В разделе «Действие» активируйте пункт «СубКартины в Текст через OCR» и нажмите «Старт».
Выбор действия
SubRip начнет распознавание текста субтитров. Так как субтитры могут быть выполнены самыми разными шрифтами, распознаватель текста в программе SubRip сделан самообучаемым. То есть, когда встретится новый незнакомый символ, программа спросит, в какой символ текста его переводить. Введя нужный символ, нажмите «OK». Так будет продолжаться до тех пор, пока незнакомые программе символы не перестанут встречаться.
Ввод одного символа
Не путайте заглавные буквы и строчные, даже если это одна и та же буква (допустим, "К" и "к" для программы — две разные буквы).
Желательно не ошибаться, ведь введенный неправильно символ придется исправлять потом по всему тексту. Проще будет начать все заново. Русская буква «ы» будет распознана как два символа и надо будет указать буквы «ь» и «i», соответственно (так как «ы» будет выглядеть как «ьi», но потом мы это исправим). Также SubRip иногда собирает несколько символов в один. Для распознавания надо будет просто вводить последовательность символов.
Ввод нескольких символов
Как только указатель в верхней части окна покажет 100%, процесс закончен. Обычно он длится 10 — 15 минут.
В нижнем окне программы в меню "File" нажмите "Save As" и сохраните получившиеся субтитры как файл .srt.
Теперь нужно исправить ошибки, например, написание буквы "ы" (она до сих пор выглядит как "ьi"). Загрузите субтитры как текстовый файл в Блокнот и нажмите Ctrl+H. Введите текст поиска и текст замены, а затем нажмите "Заменить все".
Исправление ошибок в Блокноте
Когда замены будут закончены, сохраните субтитры, дав им имя Subpictures.srt.
Основные опции, советы
Основные опции

Открываем меню Options->Global Options (или меню Опции->Основные опции в русском варианте).
Ниже показаны установки по умолчанию:

  1. Wake Me Up! (Напоминание!)
    Всем, кроме людей-роботов, "напоминание" лучше отключить. В противном случае программа будет назойливо сигналить и мигать красным, когда вы, мирно уснув за рабочим столом, тормознете с вводом очередного символа.
  2. Forced subtitles only (Только принудительные субтитры)
    При установке этой опции SubRip ищет и обрабатывает только принудительные субтитры, т.е. имеющие пометку "forced".
  3. Right2Left processing (Обработка справа налево)
    Используется при распознавании субтитров на языках с ориентацией текста справа налево, например, арабском, персидском, еврейском, урду.
  4. Use VOB's subtitle map (Использовать субтитр. карту VOB'ов)
    В папке с VOB'ами после распознавания иногда обнаруживается "мусор" в виде файлов .srm, которые приходится удалять вручную. Для предотвращения появления файлов .srm, данную опцию можно отключить.
    Пояснение в документации (см. файл Doc.txt)
    Основные опции
    Использовать субтитровую карту VOB'ов
    1. Если не отмечено, SubRip всегда считывает VOB'ы пакет за пакетом, сканируя их на наличие выбранного вами потока субтитров. Оставьте эту опцию неотмеченной, если вы сканируете DVD (VOB'ы) только один раз. То есть, когда вы обрабатываете только один субтитровый поток и только один раз...
    2. Если отмечено, SubRip читает VOB'ы пакет за пакетом только в первый раз, создавая также субтитровую карту для всех выбранных VOB'ов. Так называемые субтитровые карты с расширением .srm сохраняются в папке с VOB'ами с такими же именами, что и у выбранных VOB'ов. Теперь, когда вы станете в следующий раз сканировать VOB'ы, будут читаться только нужные пакеты, что значительно ускорит обработку субтитров. По окончании обработки всех желаемых субтитровых потоков файлы .srm можно удалить.
  5. Use IDX's file offsets
    Что-то типа "Использовать смещения в IDX файле".
    При распознавании субтитров IDX/SUB с включенной опцией "Use IDX's file offsets" иногда получается вот такая картина:

    А вот те же субтитры после отключения "Use IDX's file offsets":

    Таким образом, галочку возле "Use IDX's file offsets", думаю, лучше убрать. Не знаю, насколько важна опция "Use IDX's file offsets" в плане получения правильных таймингов из IDX/SUB, но распознавать с ней порой просто невозможно.
Советы
  1. Работая с сабами на других языках, отличных от русского и английского, придется впечатывать символы, отсутствующие на русско-английских клавиатурах. Для выбора недостающих символов в SubRip предусмотрено специальное окно, содержимое которого меняется в зависимости от выбранного языка. Скопировать нужный символ можно также и из системной таблицы символов, открывающейся нажатием кнопки "Таблица символов", но такой способ, конечно, менее удобен.
    иллюстрация

  2. По окончании распознавания программа предложит сохранить матрицу символов. Не отказывайтесь. Если вы обрабатываете DVD с каким-то сериалом, серии которого расположены в разных VTS или даже на разных дисках, то сохраненная матрица, скорее всего, подойдет и для оставшихся серий. Загрузить сохраненную матрицу можно с помощью соответствующего меню или кнопки.
    иллюстрации

Работа с IdxSub2Srt
  1. ОРИГИНАЛ ИНСТРУКЦИИ
  2. СКАЧАТЬ IdxSub2Srt. Брать AVIAddXSub910.zip, т.к. в последующие версии программа IdxSub2Srt больше не включается.
Программа IdxSub2Srt, поставляемая в комплекте AVIAddXSub, поможет конвертировать графические субтитры IDX/SUB в текстовый формат SRT. Умеет работать практически с любыми IDX/SUB, включая русские. Программа простая, но со своими нюансами, о которых и будет рассказано.
КРАТКИЙ ОБЗОР
КРАТКИЙ ОБЗОР
IdxSub2Srt - бесплатная программа для конвертирования IDX/SUB файлов в текстовый формат SRT. Файлы IDX/SUB генерируются в основном из DVD дисков и фактически представляют собой субтитровое содержимое этих DVD. Файлы IDX/SUB содержат субтитры в виде битмапов (картинок), поэтому для конвертирования их в текстовый формат SRT необходима функция оптического распознавания символов (Optical Character Recognition, OCR). Способ, которым эта функция реализована в IdxSub2Srt, делает, как я думаю, весь процесс конвертирования простым и удобным, поэтому пользователь, приложив не так уж много усилий, имеет возможность за приблизительно 10 минут конвертировать какие-либо субтитры, содержащиеся в IDX/SUB, в их текстовый эквивалент в SRT формате.
Используемая в программе функция OCR это просто сопоставление букв изображениям символов, и все усилия пользователя сводятся к тому, чтобы обучить программу, что текст (обычно одиночная буква) соответствует определенному символу в субтитровых битмапах. После того, как программа обучена всему используемому алфавиту и прочим символам (цифрам, например, и т.п.), все субтитры с легкостью могут быть преобразованы в текст.
IdxSub2Srt делает весь обучающий процесс удобным и быстрым, насколько это возможно, и, думаю, весьма преуспевает в этом аспекте. Есть возможность сохранения базы данных OCR, поэтому каждый новый проанализированный IDX/SUB может быть проверен по этой базе, и если там уже есть известные символы, то пользователю остается распознать только недостающие.
В настоящий момент IdxSub2Srt способен работать с английскими субтитрами и теми, которым соответствуют набор символов по умолчанию, настроенный в вашем компьютере под управлением Windows. Например, если на вашем компьютере установлен (через Панель управления/Язык и региональные стандарты/Дополнительно) русский язык как набор символов по умолчанию для не-Юникод текста, то программа сможет обрабатывать английские и русские субтитры, конвертируя их в текст.
Причин для конвертирования IDX/SUB в SRT может быть много. Например, с целью пересоздания имеющегося файла IDX/SUB со шрифтом, размером шрифта и положением на экране по выбору пользователя. Как например, в случае с моим WDTV медиа-плеером, который очень хорошо поддерживает субтитры IDX/SUB. Обычно информация о позиционировании в оригинальных IDX/SUB не подходит для данного медиа-плеера (не говоря уже о качестве и размере шрифта), поэтому я конвертирую IDX/SUB в SRT, а затем обратно в IDX/SUB с помощью AVIAddXSubs (находится в одном архиве с IdxSub2Srt), но теперь уже с подходящим для WDTV позиционированием на экране и гораздо лучше выглядящими буквами, большими по размеру.
Другая полезность конвертации заключается в том, что переводчики получают оригинальные субтитры в виде текста и могут перевести их потом на другой язык.
Файл SRT - более универсальный формат хранения ваших субтитров вместе с соответствующими видеофайлами. К тому же субтитры в таком виде занимают намного меньше места.
ОПИСАНИЕ ПРОГРАММЫ
ОПИСАНИЕ ПРОГРАММЫ

  1. Subtitle language Selection (Выбор языка субтитров).
    Выбор языка для извлечения из загруженного IDX/SUB соответствующих субтитровых картинок. В файле IDX/SUB может содержаться много языков.
  2. Load Idx/Sub (Загрузить Idx/Sub).
    Выбор файла IDX для обработки. Из него будет загружен только выбранный язык. См. п.1.
  3. Save (Сохранить).
    Периодически сохраняйте свою работу. Заметьте, что всякий раз, когда вы выходите из программы, ваша работа сохраняется автоматически.
  4. Generate Srt (Генерировать Srt).
    Генерирует распознанный текст для каждой субтитровой картинки и сохраняет его в той же папке, что и загруженный IDX/SUB. При этом используется имя IDX файла, но с расширением SRT.
  5. Previous, Next Subtitle (<<, >>) (Предыдущий, следующий субтитр).
    Когда файл IDX/SUB загружен, вы можете пролистывать субтитры вперед и назад. При отмеченной опции "Only Unknown letters" ("Только Неизвестные символы") данная операция ограничена. См. п.13.
  6. Subtitle bitmap (Субтитровая картинка).
    Показывает изображение субтитра. В это же время выделенный символ (для обучения программы/распознавания) окрашен красным цветом. См. п.7, 8, 9, 15, 16.
  7. Previous, Next Pattern in currently selected subtitle (<<, >>) (Предыдущий, следующий символ в текущем выбранном субтитре).
    Когда загружен IDX файл, для текущего выбранного субтитра есть список всех содержащихся в нем уникальных символов. С помощью кнопок <<, >> вы можете просматривать эти символы и вводить соответствующие текст/буквы в поле 9.
  8. Current Pattern/Text to Display/Learn (Текущий символ/Отображаемый текст/Обучение).
    Текущий символ в текущем субтитре здесь показан красным. Тот же символ показан красным и в поле 6, что помогает ввести для него правильный текст.
  9. Enter Text for currently selected Pattern (Ввод текста для текущего выделенного символа).
    В этом поле редактирования вводится текст, соответствующий выделенному символу выбраннного субтитра.
  10. Use my Edited Text (Использовать мой редактированный текст).
    Распознанный текст для каждого субтитра отображается в поле 14 и сгенерирован автоматически. Пользователь может переписать этот текст и внести свои собственные изменения, которые будут использованы программой при генерации SRT.
  11. Current subtitle/Total subtitles (Текущий субтитр/Всего субтитров).
    Здесь показываются номер выбранного в настоящий момент субтитра и общее количество субтитров. При отмеченной опции "Only Unknown letters" (13) будут отображены текущий нераспознанный субтитр (всегда под номером 1) и оставшееся количество нераспознанных субтитров.
  12. AVRG Normal & AVRG Italics (AVRG Обычный и AVRG Курсив).
    Эти две опции контролируют, как программа разделяет слова. "AVRG Normal" используется для нормального стиля текста, "AVRG Italics" - для курсивного. По-видимому, соответствующие величины необходимы для обоих стилей, одного значения для курсива было бы недостаточно. Это работает следующим образом: когда расстояние между двумя символами меньше, чем число AVRG (в пикселях), они рассматриваются принадлежащими к одному слову. Если это расстояние больше, чем число AVRG, то тогда между ними вставляется пробел. Значения AVRG генерируются автоматически путем некоторых статистических вычислений, но пользователь может настроить их с целью получения лучшего результа, немедленно видя в поле 14 последствия изменения этих значений.
  13. Only Unknown letters (Только Неизвестные символы).
    Отметив эту опцию, вы можете просматривать только субтитры с нераспознанными символами (5) и только нераспознанные символы в этих субтитрах (7). Вы не можете перейти назад, а перейти вперед можете, только если для выделенного символа введен соответствующий текст. Эта функция очень важна для процесса обучения OCR.
  14. Generated Subtitle text (Сгенерированный текст субтитра).
    Здесь показывается сгенерированный текст для текущего субтитра. Нераспознанные символы обозначены в тексте значком #. Этот текст нельзя изменить, если не отмечена опция "Use my Edited Text" ("Использовать мой редактированный текст", 10). При отметке данной опции пользователь имеет возможность вводить текст, который будет использован при генерации итогового SRT.
  15. Italic (Курсив, наклонный текст).
    Пометить субтитр, что он является курсивным. Линия текста, содержащая хотя бы одну букву, помеченную как курсив, будет заключена в тэги <i></i>.
  16. All Italics (Все курсивные).
    Все символы в выбранных субтитрах будут помечены как курсивные.
  17. Ignore Subtitle (Игнорировать субтитр).
    При выборе этой опции текущий субтитр пропускается и не включается при генерации в SRT. Это удобно, например, для пропуска субтитров, предназначенных для людей с нарушением слуха.
  18. Здесь вводится номер субтитра для перехода к нему. Переход осуществляется нажатием кнопки "Go" (19).
  19. Go (Перейти).
    Переход к субтитру, номер которого был введен в поле 18.
ПОРЯДОК РАБОТЫ
ПОРЯДОК РАБОТЫ
Сначала выберите язык для извлечения из IDX/SUB. См. п.1.
Затем загрузите IDX/SUB (2). Программа извлечет относящиеся к выбранному языку картинки (битмапы). Битмапы будут проанализированы и все отдельные символы будут внесены в список. Далее программа проверит эти символы по имеющейся базе данных OCR. Если обнаружится OCR файл, имеющий в списке 10 таких же символов, что и в загруженном IDX/SUB, то этот OCR файл будет использован. Теперь пользователь должен обучить программу введением каких-то новых символов. Процесс анализа IDX/SUB файла происходит только один раз. Когда вы сохраняете свою работу вручную кнопкой "Save" (3) или автоматически при каждом выходе из программы, создается файл PRJ в той же папке, что и IDX/SUB. В нем содержится вся информация анализа и использованного OCR файла. В следующий раз, когда IDX/SUB файл перезагружен, а соответствующий PRJ файл находится в той же папке, то вся необходимая информация анализа загружается из этого PRJ.
В самый первый раз, когда IDX/SUB загружен и проанализирован (файла PRJ пока нет), появившееся окно предложит пользователю помочь программе определить наилучшее отображение текста на картинках.

Выберите цвет, дающий наиболее цельный и нежирный вид букв первого субтитра из IDX/SUB, который отображается в поле 6 главного окна. Программа предложит лучший цвет по ее мнению, но, возможно, вы сможете сделать лучший выбор. В общем, если предложенные цвета дают цельный и нежирный вид букв, то сохраните их (внутренняя часть букв/основной цвет). Избегайте цветов, представляющих собой контуры букв.
Пожалуйста, обратите внимание, что данные обучения OCR не сохраняются в PRJ файлах (для каждого загруженного IDX/SUB создается свой PRJ файл). Ваша работа хранится в базе данных OCR, которая представляет собой папку "OCR" в том же каталоге, откуда был запущен IdxSub2Srt. В базе данных OCR находятся парные файлы OCR*.txt/OCR*.bin, в которых в действительности сохраняется вся ваша работа. Однако, в файлах PRJ содержится некоторая другая информация, такая как текст, введенный при отмеченной опции "Use my edited text" (10) и информация о субтитрах, которые следует пропустить при генерации SRT (17). За исключением перечисленной информации все остальные данные анализа могут быть восстановлены в случае, если PRJ файл будет удален. Программа загрузит соответствующий OCR файл и в конечном итоге будет создан новый PRJ файл. Обратите внимание, что если вы по какой-либо причине удалите базу данных OCR, то все PRJ файлы тоже должны быть удалены.
Теперь начинается реальное обучение OCR. В каждом из субтитров, которые можно пролистывать кнопками 5, имеется определенное количество символов, извлеченных посредством анализа. Ваша работа состоит в замене символа #, присваиваемого автоматически и означающего "неизвестный символ", каким-либо другим текстом, на самом деле соответствующим выделенному символу. Этот символ может встретиться несколько раз в одном субтитре и, конечно, во многих других субтитрах. Например, на приведенном выше скриншоте главного окна программы выделено изображение русской буквы "н". Она показана красным цветом в поле 8 и в нескольких местах субтитровой картинки в поле 6. То есть буква "Н" найдена в текущем изображении субтитра 4 раза.
Каждый раз, когда соответствующий текст вводится в поле 9, генерируется текст субтитров, который можно видеть в поле 14. Постепенно все значки # заменяются текстом, введенным пользователем.
Для ускорения работы отметьте опцию "Only Unknown letters" (13). Это поможет сконцентрировать усилия только на нераспознанных субтитрах и символах. Отметив эту опцию, вы сможете пролистывать субтитры только вперед и только если введете текст для текущего символа, т.е. распознаете его. Когда вы переходите к следующему нераспознанному символу, в поле 11 вы можете видеть число субтитров, которые еще не полностью распознаны. Если вы ошиблись и хотели бы вернуться, чтобы исправить текст, введенный для символа в текущем субтитре, то просто снимите галочку 13, перейдите к нужному символу, сделайте исправления и снова поставьте галочку 13, чтобы продолжить работу.
Один из аспектов, который следует принять во внимание, - то, как программа вставляет пробелы, организуя текст в слова. Расстояние между символами сверяется с двумя числами ("AVRG Normal" и "AVRG Italics" - см. п.12). Первое число влияет на обычный текст, второе - на курсивный. Когда расстояние между любыми двумя последовательными символами меньше, чем число AVRG, то тогда они рассматриваются принадлежащими к одному слову. Если расстояние больше, чем это число, то тогда между ними вставляется пробел. Эти два числа определены путем некоторых статистических вычислений, но пользователь может их настроить и посмотрев результат (14) решить, какое значение AVRG дает лучшее "словоразделение".
Когда все символы распознаны, вы можете нажать кнопку "Generate Srt" (4) для генерации файла SRT. Он будет создан в том же каталоге, что и загруженный IDX/SUB.

Благодарю за наводку пользователя angelica_k
Дополнительно: если IdxSub2Srt не справляется с субтитрами
angelica_k писал(а):
Для субтитров с которыми не справляется IdxSub2Srt (сама на днях столкнулась с такими - плохая графика в sub, каждый символ, даже в пределах одного предложения предлагалось определять по новой) могу рекомендовать Subtitle Edit, которая наконец-то обзавелась русским модулем для Tesseract 3 и русскими словарями проверки орфографии.
angelica_k писал(а):
Последняя версия Subtitle Edit 3.2.7 глючная - обновилась, загрузила в неё sub, прога долго делала вид что распознаёт, выдавая пустые строки "распознанного текста". Откатилась на проверенную "в боях" 3.2.2.
зы. распознавала конечно же русские субтитры.
    Ссылки:
  1. Subtitle Edit — мощный и перспективный редактор графических и текстовых субтиров
  2. Страничка программы
  3. Русский Help (онлайн, скачать в .chm)
Работа в Subtitle Edit
Кроме вышеуказанных программ, распознавать субтитры можно в программе Subtitle Edit, русифицированной и обладающей крайне интуитивным интерфейсом, поэтому, по мнению пользователя<FERMER>, не нуждающейся в каких-либо дополнительных инструкциях и пояснениях. Если у кого-то возникнут вопросы по работе в Subtitle Edit, просьба писать <FERMER> в личку.
    Ссылки:
  1. Subtitle Edit — мощный и перспективный редактор графических и текстовых субтиров
  2. Страничка программы
  3. Русский Help (онлайн, скачать в .chm)
Распознавание субтитров из файлов SUP (DVD, BD)
Здесь даны самые простые, на мой взгляд, способы конвертации (распознавания) субтитров в формате SUP (DVD и BD), извлеченных соответственно из DVD и Blu-ray дисков. Английские субтитры распознаем автоматически в DVDSubEdit, а остальные, включая русские, обрабатываем вручную в IdxSub2Srt.
Софт:
  1. IdxSub2Srt (в комплекте с AVIAddXSubs)
  2. BDSup2Sub
  3. DVDSubEdit
  4. SubToSup
  5. SubtitleCreator

IDX/SUB
    Английские:
    1. SubToSup: конвертируем IDX/SUB в SUP.
    2. DVDSubEdit: открываем полученный SUP, распознаем и сохраняем как SRT.
      (cм. Простой и практически универсальный способ конвертации субтитров формата idx-sub в формат srt)

SUP(DVD)
    Русские:
    1. SubtitleCreator: конвертируем SUP в SUB/IDX, выбрав при сохранении русский язык.
      Подробнее...
      1. Запуск программы:

      2. Выбор файла:

      3. Результат:

      4. Выбор формата сохранения:

      5. Выбор языка субтитров:

      6. Операция завершилась удачно:

      7. А вот и наши SUB/IDX:
    2. IdxSub2Srt: загружаем полученный SUB/IDX, распознаем и сохраняем как SRT.
    Английские:
    1. DVDSubEdit: открываем SUP, распознаем и сохраняем как SRT.
      (cм. Руководство пользователя DVDSubEdit 1.51)

SUP(BD)
    Русские:
    1. BDSup2Sub: конвертируем SUP(BD) в SUB/IDX, выбрав при сохранении русский язык.
      Подробнее...
      1. Запускаем BDSup2Sub и загружаем русские SUP(BD).


      2. При загрузке будет предложено выбрать параметры преобразования.
        В зависимости от видео, с которым предполагается использовать распознанные srt-субтитры, выбираем разрешение (NTSC или PAL) и частоту кадров.
        Изменение частоты кадров вряд ли даст синхронизацию с видео, поэтому srt-субтитры, скорее всего, придется под него подгонять.


      3. Выбираем выходной формат SUB/IDX.

      4. Сохраняем SUB/IDX, выбрав русский язык.

    2. IdxSub2Srt: загружаем полученный SUB/IDX, распознаем и сохраняем как SRT.
    Английские:
    1. BDSup2Sub: конвертируем SUP(BD) в SUP(DVD).
      Подробнее...
      1. Запускаем BDSup2Sub и загружаем английские SUP(BD).


      2. При загрузке будет предложено выбрать параметры преобразования.
        В зависимости от видео, с которым предполагается использовать распознанные srt-субтитры, выбираем разрешение (NTSC или PAL) и частоту кадров.
        Изменение частоты кадров вряд ли даст синхронизацию с видео, поэтому srt-субтитры, скорее всего, придется под него подгонять.


      3. Выбираем выходной формат SUP/IFO.

      4. Сохраняем.

    2. DVDSubEdit: открываем полученный SUP, распознаем и сохраняем как SRT.
      (cм. Руководство пользователя DVDSubEdit 1.51)

Для SUP(BD) есть инструкции с иными методами конвертации:
  1. Распознавание графических субтитров PGS с Blu-Ray с помощью FineReader (Конвертация SUP в SRT)
  2. Как выдрать субтитры с Blu-Ray (Конвертация SUP в SRT c помощью программы SupRip)
[Профиль]  [ЛС] 

germanm2000

Стаж: 16 лет 5 месяцев

Сообщений: 1380

germanm2000 · 19-Ноя-11 10:29 (спустя 1 день 11 часов, ред. 19-Ноя-11 19:34)

Цитата отсюда:
yaboxer писал(а):
germanm2000, ну вообщем, у меня уже получается. Я открыл извлеченный с помощью PGCDemux SUP-файл в SubtitleCreator и сохранил его, как VobSub.IDX. Затем открыл VobSub.IDX в IdxSub2Srt и сейчас он распознает текст.
Чуть выше говорилось: 'Чтобы IdxSub2Srt игнорировала уже распознанные буквы, надо поставить галку над Only unknown letters.' Когда я поставил эту галку спустя полчаса после начала работы, IdxSub2Srt говорит, что не распознанных букв уже нет (мол всё сделано). Когда же я открываю созданный им SRT-файл, то вижу, что примерно 10% строк не распознано вообще (вместо букв - решетки). Тогда получается, надо строчить вручную всю вечность, чтобы получить в итоге нормальный SRT. Вот http:// СПАМ что получается. Не знаешь продолжать тыкать буквы или прекратить...
Странный какой-то у вас IDX/SUB. Добиться хорошего отображения сабов при появлении окна "Select Letter Color" после загрузки и анализа IDX/SUB у меня не получается. Видимо, SubtitleCreator при конвертации SUP в IDX/SUB добавил фоновую заливку на отдельных сабах. О вероятности подобного глюка под Windows 7 говорится в теме "Простой способ синхронизации графических субтитров (работа в SubtitleCreator)".
Так как субтитры у вас английские, можете попробовать распознать SUP с помощью DVDSubEdit (см. спойлер "Дополнительно: распознавание субтитров SUP (DVD, BD)"). Возможно, результат распознавания будет лучше.
[Профиль]  [ЛС] 

crocerossina

Top Seed 02* 80r

Стаж: 15 лет 3 месяца

Сообщений: 1121

crocerossina · 06-Дек-11 19:04 (спустя 17 дней)

germanm2000, благодарствую за нужную тему, всё отлично получается... кроме буквы Ы - прога определяет её, как "палочку" после Ь. Приходиться долго и муторно исправлять потом вручную... может я чего пропустил из описания на счёт такого "трабла"?
[Профиль]  [ЛС] 

germanm2000

Стаж: 16 лет 5 месяцев

Сообщений: 1380

germanm2000 · 06-Дек-11 20:01 (спустя 57 мин., ред. 06-Дек-11 20:01)

crocerossina
Есть такое дело, хотя я бы не назвал это такой уж большой проблемой. Все "распознавалки" делают ошибки и их приходится исправлять.
Для "палочки" я бы, пожалуй, поставил звездочку. То есть в субтитрах вместо ы будет ь*.
Потом открываем SRT в Блокноте и делаем замену (Правка -> Заменить...). Пару символов ь* заменяем буквой ы. Не так уж долго на самом деле.
Или же можно вносить исправления сразу в ходе распознавания. См. пункты 10.Use my Edited Text (Использовать мой редактированный текст) и 14.Generated Subtitle text (Сгенерированный текст субтитра)
[Профиль]  [ЛС] 

crocerossina

Top Seed 02* 80r

Стаж: 15 лет 3 месяца

Сообщений: 1121

crocerossina · 06-Дек-11 21:06 (спустя 1 час 4 мин.)

germanm2000, да, точно, не сообразил символ какой-нить неиспользующийся подставить,
Спасиб за ответ-подсказку. По ходу распознавания тоже делал, но лучше так - автозаменой знака в блокноте.
[Профиль]  [ЛС] 

Andy Rok

Стаж: 13 лет 4 месяца

Сообщений: 237

Andy Rok · 21-Фев-12 12:38 (спустя 2 месяца 14 дней)

Не могу понять как запустить BDSup2Sub. Там есть GUI но нет .exe? Подскажите кто знает
[Профиль]  [ЛС] 

germanm2000

Стаж: 16 лет 5 месяцев

Сообщений: 1380

germanm2000 · 21-Фев-12 15:43 (спустя 3 часа, ред. 21-Фев-12 15:43)

Andy Rok
При установленной JAVA (иначе прога работать не будет), файл BDSup2Sub.jar запускается просто двойным щелчком. Разархивировать .jar не нужно.
[Профиль]  [ЛС] 

Andy Rok

Стаж: 13 лет 4 месяца

Сообщений: 237

Andy Rok · 21-Фев-12 17:24 (спустя 1 час 41 мин.)

germanm2000
Спасибо.
[Профиль]  [ЛС] 

Федра Ипполитова

Стаж: 13 лет 3 месяца

Сообщений: 63

Федра Ипполитова · 26-Фев-12 16:48 (спустя 4 дня)

Спасибо огромное!!! Я так намучилась с этим VobSub'ом, а тут буквально за полчаса решился вопрос!
[Профиль]  [ЛС] 

germanm2000

Стаж: 16 лет 5 месяцев

Сообщений: 1380

germanm2000 · 26-Фев-12 17:07 (спустя 18 мин.)

Федра Ипполитова
Пожалуйста.
Я же со своей стороны хотел бы еще раз поблагодарить angelica_k за наводку на эту весьма полезную прожку.
[Профиль]  [ЛС] 

angelica_k

Стаж: 15 лет 6 месяцев

Сообщений: 1028

angelica_k · 05-Май-12 19:19 (спустя 2 месяца 8 дней, ред. 05-Май-12 19:19)

Для субтитров с которыми не справляется IdxSub2Srt (сама на днях столкнулась с такими - плохая графика в sub, каждый символ, даже в пределах одного предложения предлагалось определять по новой) могу рекомендовать Subtitle Edit, которая наконец-то обзавелась русским модулем для Tesseract 3 и русскими словарями проверки орфографии.
Подробнее здесь
[Профиль]  [ЛС] 

germanm2000

Стаж: 16 лет 5 месяцев

Сообщений: 1380

germanm2000 · 05-Май-12 21:44 (спустя 2 часа 25 мин., ред. 05-Май-12 21:44)

angelica_k
Спасибо за информацию, добавил в шапку. Надеюсь, не рассердитесь за небольшие изменения, внесенные в Ваше сообщение.
Кстати, тема про Subtitle Edit на форуме тоже имеется: https://rutr.life/forum/viewtopic.php?t=3591013
[Профиль]  [ЛС] 

Spartak 2005

Стаж: 19 лет 4 месяца

Сообщений: 1844

Spartak 2005 · 25-Сен-12 02:26 (спустя 4 месяца 19 дней)

В новой сборке программа отсутствует...
[Профиль]  [ЛС] 

RoxMarty

RG Мультфильмы

Стаж: 17 лет 8 месяцев

Сообщений: 14619

RoxMarty · 06-Ноя-12 21:52 (спустя 1 месяц 11 дней)

Спасибо за тему - действительно через IdxSub2Srt очень удобно и быстро распознавать графические DVD-субтитры, правда пока только на английских делал, но результат очень неплох. Выявились стандартные траблы типа вместо "i" (ай) буква "l" (эл) - причём по стандартной ещё базе...
Ещё заметил в некоторым местах неразделённые слова, идущие без пробела (не смесь курсива и обычного шрифта это точно). Буду потихоньку апробировать по мере необходимости и дальше.
Spartak 2005 писал(а):
55396976В новой сборке программа отсутствует
Я вот тоже только что натолкнулся на эту тему и пошёл качать - ничего не нашёл, но скачал старую версию "AVIAddXSub910.zip" (только сейчас и сам заметил ссылку у автора в теме ) и там она имеется. Это хорошо!
[Профиль]  [ЛС] 

germanm2000

Стаж: 16 лет 5 месяцев

Сообщений: 1380

germanm2000 · 06-Ноя-12 23:30 (спустя 1 час 37 мин.)

RoxMarty писал(а):
56179534Ещё заметил в некоторым местах неразделённые слова, идущие без пробела (не смесь курсива и обычного шрифта это точно).
Настройки "AVRG Normal" и "AVRG Italics" (п.12) совсем не помогают?
[Профиль]  [ЛС] 

RoxMarty

RG Мультфильмы

Стаж: 17 лет 8 месяцев

Сообщений: 14619

RoxMarty · 07-Ноя-12 00:16 (спустя 46 мин.)

Цитата:
Настройки "AVRG Normal" и "AVRG Italics" (п.12) совсем не помогают?
Я обнаружил это уже в полученных srt, сразу б увидел - попробовал. Но судя по инфе в шапке темы - это ж параметры для сочленения курсива/обычного текста, а у меня в обычном тексте было. Ну да ладно, в следующий раз буду внимательней.
[Профиль]  [ЛС] 

angelica_k

Стаж: 15 лет 6 месяцев

Сообщений: 1028

angelica_k · 07-Ноя-12 08:52 (спустя 8 часов)

RoxMarty писал(а):
Выявились стандартные траблы типа вместо "i" (ай) буква "l" (эл) - причём по стандартной ещё базе...
Я обычно чередую проги распознавания - какие-то idx/sub лучше берет IdxSub2Srt, какие-то Subtitle Edit, но вот проверяю сейчас все полученные srt через Subtitle Edit, так как она (прога) прекрасно правит описанные выше ошибки, да и ещё кучу всего (самое распространённое - числа 1 00 -> 100).
[Профиль]  [ЛС] 

RoxMarty

RG Мультфильмы

Стаж: 17 лет 8 месяцев

Сообщений: 14619

RoxMarty · 07-Ноя-12 13:56 (спустя 5 часов)

angelica_k писал(а):
56184975Subtitle Edit
Спасибо. Пропустил через Subtitle Edit - довольно удобно.
[Профиль]  [ЛС] 

brain2012

Стаж: 12 лет 7 месяцев

Сообщений: 23


brain2012 · 14-Дек-12 13:42 (спустя 1 месяц 6 дней)

Кто-нибудь знает как взять(снять) субтитры(srt) в видеофайле(avi) со вшитыми сабами?И какая программа?
[Профиль]  [ЛС] 

utopia i nopaf giffl

Стаж: 12 лет 3 месяца

Сообщений: 2


utopia i nopaf giffl · 12-Янв-13 19:18 (спустя 29 дней)

Помогите, я перевел субтитры с английского на русски и русские сабы не отражаются, просто пробелы. Зато запятые и точки есть.
[Профиль]  [ЛС] 

germanm2000

Стаж: 16 лет 5 месяцев

Сообщений: 1380

germanm2000 · 12-Янв-13 19:37 (спустя 18 мин.)

utopia i nopaf giffl
Подробнее, плиз. Пока ни хрена не понятно, что и как Вы делали, и чем Вам можно помочь.
[Профиль]  [ЛС] 

utopia i nopaf giffl

Стаж: 12 лет 3 месяца

Сообщений: 2


utopia i nopaf giffl · 12-Янв-13 19:44 (спустя 7 мин.)

Я скачал видео в нем есть внешние сабы на английском. Извлек с помощью программы, открыл через блокнот и перевел на русский и обратно вставил. Они не отображаются, а английские слова, которые остались они отображаются.
[Профиль]  [ЛС] 

germanm2000

Стаж: 16 лет 5 месяцев

Сообщений: 1380

germanm2000 · 12-Янв-13 20:12 (спустя 27 мин., ред. 12-Янв-13 20:12)

utopia i nopaf giffl писал(а):
57327499...внешние сабы на английском. Извлек с помощью программы...
Извлекли внешние сабы? Это как?
utopia i nopaf giffl писал(а):
57327499...обратно вставил.
Вставили куда?
Свой файл с переведенными сабами посмотреть не дадите?
[Профиль]  [ЛС] 

avproh

Стаж: 15 лет 11 месяцев

Сообщений: 2072

avproh · 03-Фев-13 02:11 (спустя 21 день, ред. 03-Фев-13 02:11)

germanm2000 писал(а):
49189886Английские субтитры распознаем автоматически в DVDSubEdit
Пример приведу, что получилось с английскими сабами при помощи этой программы:
скрытый текст
1
00:01:37,519 --> 00:01:41,720
KMM: My mother made an amazнng amount
of noнse when she ate her food.
2
00:01:42,239 --> 00:01:46,440
lt was as нf she was tryнng to taste
the entнre world.
3
00:01:46,680 --> 00:01:49,080
Sometнmes l just couldn't stand her.
4
00:01:50,079 --> 00:01:52,080
Sometнmes l hated her.
5
00:01:52,640 --> 00:01:55,680
Sometнmes l thought
she was ruнnнng my lнfe.
6
00:01:56,560 --> 00:02:00,920
What kept me goнng was knowнng
one day l'd leave her.
7
00:02:11,199 --> 00:02:12,520
[BEACH BOYS' SONG PLAYS]
8
00:02:12,800 --> 00:02:15,600
Come on, baby, surfнng safarн
9
00:02:15,840 --> 00:02:18,400
l'm gonna take you
Surfнng safarн
10
00:02:18,639 --> 00:02:21,120
l'm gonna take you
Surfнng safarн
11
00:02:21,400 --> 00:02:24,120
l'm gonna take you
Surfнng safarн
12
00:02:24,360 --> 00:02:27,160
Let's go surfнng now
Everybody's learnнng how
13
00:02:27,400 --> 00:02:29,840
Come on and safarн wнth me
Если это называется мелкими ошибками, то я дико извиняюсь... откуда там вообще взялась русская буква "н"??? Вообще проблема англоязычных сабов не решается при помощи ни одной программы, приведенной в списке в шапке темы. Пресловутая проблема "I" и "l" никак не решается без помощи полноценной OSR.
Может я как-то не так настроил программу? Тогда расскажите - как, в теме я этого не обнаружил.
[Профиль]  [ЛС] 

germanm2000

Стаж: 16 лет 5 месяцев

Сообщений: 1380

germanm2000 · 03-Фев-13 16:55 (спустя 14 часов, ред. 03-Фев-13 17:05)

avproh писал(а):
57713191Если это называется мелкими ошибками, то я дико извиняюсь... откуда там вообще взялась русская буква "н"???...
Может я как-то не так настроил программу? Тогда расскажите - как, в теме я этого не обнаружил.
О настройках DVDSubEdit рассказано в соответствующем топике, но тут это вряд ли поможет. Распознавалка GOCR в составе DVDSubEdit, конечно, не идеальна, однако DVDSubEdit - единственная известная мне программа, умеющая достаточно хорошо работать с голыми англоязычными SUP'ами. Или Вам известны другие варианты?
Ошибка I/l встречается почти всегда и при ручном распознавании в SubRip или IdxSub2Srt. Кроме того, на количество ошибок большое влияние оказывает качество прорисовки субтитров. Непонравившиеся символы DVDSubEdit (GOCR) по своему усмотрению заменяет какими-нибудь буквами или цифрами. В данном случае вместо "i" подставлена "н", что затем легко исправить в Блокноте. Замена же "l" на "I" (и наоборот) потребует, само собой, больших усилий и времени.
Я обычно правлю ошибки вручную в Блокноте, но можно воспользоваться программой Subtitle Edit, как советовала angelica_k. Тема по Subtitle Edit находится здесь.
[Профиль]  [ЛС] 

GCRaistlin

Стаж: 16 лет 10 месяцев

Сообщений: 5786

GCRaistlin · 06-Апр-13 20:38 (спустя 2 месяца 3 дня)

Подскажите, пож., как с минимальными потерями распознать английские субтитры в SUP, написанные курсивом. DVDSubEdit с умолчальными настройками, конечно, что-то распознает, но по факту приходится править каждый титр.
[Профиль]  [ЛС] 

germanm2000

Стаж: 16 лет 5 месяцев

Сообщений: 1380

germanm2000 · 06-Апр-13 21:48 (спустя 1 час 10 мин., ред. 06-Апр-13 21:48)

GCRaistlin писал(а):
58732627как с минимальными потерями распознать английские субтитры в SUP, написанные курсивом.
Вручную с помощью SubRip, отмечая при распознавании жирность и курсив для определенных сабов.
[Профиль]  [ЛС] 

ateistkarl

Стаж: 14 лет 5 месяцев

Сообщений: 96


ateistkarl · 27-Май-13 14:15 (спустя 1 месяц 20 дней)

При прогоне файлов через TSDoctor, вытаскиваю субтитры в srt. Но получаются не на кириллице а на латинице.
Приходится прогонять через транслит, а потом долго и муторно работать в Воршопе. Хотя на пишущем плеере
если смотреть, то просматривается русский текст. Есть ли другие возможности решения этого вопроса?
[Профиль]  [ЛС] 

germanm2000

Стаж: 16 лет 5 месяцев

Сообщений: 1380

germanm2000 · 27-Май-13 15:04 (спустя 49 мин., ред. 27-Май-13 15:34)

ateistkarl, какое отношение ваш вопрос имеет к теме "Распознавание субтитров на DVD-Video..."? Правильно, никакого.
Короче, идите в соседнюю тему "Монтаж и работа с контейнерами (avi, mkv, mp4, ts)" или еще куда-нибудь, и спрашивайте там.
[Профиль]  [ЛС] 

ksa242

Стаж: 12 лет 3 месяца

Сообщений: 89


ksa242 · 11-Июн-13 11:57 (спустя 14 дней)

Под Linux при рипании субтитров с DVD-Video в .SRT я пользовался связкой из subtitle2pgm и pgm2txt, но когда в руки попался BluRay, ничего подобного найти не удалось: были либо программы под Windows из этого топика, которые не шли под Wine или требовали .NET, либо BDSup2Sub, требующий Java, тащить которую в систему ради одной маленькой утилитки не хотелось. В итоге по исходникам последнего набыдлокодил аналог subtitle2pgm для .SUP: sup2pgm (исходники, GitHub).
Версия первая, альфа; не всегда верно работает со сложными субтитрами (диалог плюс перевод какой-нибудь таблички на экране, к примеру), но ничего, вроде бы, не пропускает. Попробуйте, кому интересно, посоветуйте, что поправить/подкрутить.
[Профиль]  [ЛС] 
 
Ответить
Loading...
Error