|
BOLiK_Ltd
Стаж: 18 лет Сообщений: 1026
|
BOLiK_Ltd ·
29-Июн-09 14:39
(15 лет 4 месяца назад)
m0j0
Цитата:
Качество у Файнридера, потому что он - серьезная утилита.
Никакая серьёзная утилита не сравнится с человеческим глазом. С не созданной ещё матрицей символов, т.е работа была начата с нуля, я за пол дня рипнул английские и русские сабы на фильм Заложница. Плюс рипнул английские и русские сабы на все дополнительные материалы. Проверил и отредактировал их в воркшопе и загрузил в архитект для последущего авторинга.
|
|
m0j0
Стаж: 16 лет 5 месяцев Сообщений: 2874
|
m0j0 ·
29-Июн-09 14:44
(спустя 5 мин.)
BOLiK_Ltd
zackary тоже саприпом распознавал, а когда французские сабы понадобилось рипнуть пришлось Файнридером пользоваться
|
|
MaLLIeHbKa
Стаж: 17 лет 11 месяцев Сообщений: 3673
|
MaLLIeHbKa ·
29-Июн-09 15:11
(спустя 26 мин., ред. 29-Июн-09 15:18)
m0j0 писал(а):
Файнридером можно по минимуму управиться за 20-25 минут
BOLiK_Ltd писал(а):
я за пол дня рипнул английские и русские сабы на фильм Заложница
Вот, собственно, и ответ на Ваш вопрос (:
Вообще, суть в том, что с наколенными поделками SupRip/SupRead/SubRip/etc. нужно сидеть и терпеливо набивать матрицу (33 буквы + разные регистры + разные начертания + сочетания 2х—3х—4х близкостоящих букв + если есть смешение языков — то это вообще могила, отделение русской «а» от английской «a», к примеру; большинство SupRip'овских сабов грешат как раз адским смешением букв разных алфавитов (языков) в пределах одного слова, что сильно усложняет проверку грамотности, ну и вообще без слёз смотреть на это зрелище невозможно), а в случае с ФайнРидером — закинул ему пачку картинок и пошёл пить чай; дальше идёт уже намного менее нудная высокоуровневая обработка (пост-процессинг на регэкспах (=> практически без потерь времени) + проверка валидности формата и проверка орфографии вордом). Плюс вкусные встроенные плюшки вроде сохранения тегов курсивного начертания без лишних телодвижений.
В общем, по соотношению результат/геморрой (причём и по качеству результата, и по временным затратам) этот метод существенно лучше использования любительских OCR-утилит. Сложный от только с виду, на 3й—5й раз процесс идёт намного легче и на полном автоматизме. Для единичных случаев, возможно, изучать новую методику и нет смысла, но для тех, кто занимается распознаванием сабов более-менее регулярно, это лучшее из существующих решений (по вышеупомянутому критерию результат/геморрой).
Ну и вообще сравнение ФайнРидера с СупРипом — это как сравнение WordPad'а с Word'ом. Суть-то, конечно, та же, но второй инструмент при должной сноровке (это минус, но единоразовый — время на первичное изучение) на две головы выше первого и по функциональности, и по производительности. Хотя, безусловно, всегда находится множество людей, утверждающих, что Word — это от лукавого, и «настоящие отцы» пишут только в WordPad'е. Я полагаю, это либо вопрос идеологии (реже), либо сила привычки (чаще), либо как в анекдоте про русских мужиков и японскую бензопилу (:
|
|
BOLiK_Ltd
Стаж: 18 лет Сообщений: 1026
|
BOLiK_Ltd ·
29-Июн-09 15:18
(спустя 6 мин., ред. 29-Июн-09 15:20)
MaLLIeHbKa писал(а):
Вот, собственно, и ответ на Ваш вопрос
У вас помоему что то с арифметикой. Я вроде писал о подготовке всего фильма с двумя разными потоками субтитров как на сам фильм, так и на кучу дополнительных материалов. Для рипа 1000 картинок нужно максимум те же 20-25 минут с пустой матрицей. Причём, я уже сразу после рипа получаю готовый srt файл. И остаётся только привести полученные сабы в порядок в воркшопе. Максимум 10-15 минут с проверкой таймингов, орфографией и других ошибок.
Цитата:
большинство SupRip'овских сабов грешат как раз адским смешением букв разных алфавитов (языков) в пределах одного слова, что сильно усложняет проверку грамотности, ну и вообще без слёз смотреть на это зрелище невозможно)
Согласитесь, что это не вина SupRip, а вина прежде всего тех кто рипает, кто сохраняет матрицы разных языков в один файл, кто не удосужился отредактировать полученные сабы. А с таким подходом никакой файнридер не поможет.
|
|
m0j0
Стаж: 16 лет 5 месяцев Сообщений: 2874
|
m0j0 ·
29-Июн-09 15:19
(спустя 52 сек.)
zackary писал(а):
Получается что всё таки удобнее SupRip'ом, а вот качественнее/правильнее всё таки FineReader'ом.
MaLLIeHbKa писал(а):
дальше идёт уже намного менее нудная высокоуровневая обработка
Помойму это и есть самое нудное
MaLLIeHbKa писал(а):
время на первичное изучение
Да изучать практически нечего - опытный пользователь ПК разберется без проблем.
MaLLIeHbKa писал(а):
это как сравнение WordPad'а с Word'ом.
Более точно ОпенОфис и Майкрософт Офис. В первом вроде можно чего то как то делать, но второй в десятки раз удобнее, функциональнее и круче
BOLiK_Ltd писал(а):
Максимум 10-15 минут с проверкой таймингов, орфаграфией и других ошибок.
Не верю! (ц)
Я вот всё хочу заставить Файнридер распозновать сабы с ДВД, но всё не могу найти утилитку которая бы распаковывала бы sup в удобоваримые картинки. Сапридовские ни в какую не хочет
|
|
BOLiK_Ltd
Стаж: 18 лет Сообщений: 1026
|
BOLiK_Ltd ·
29-Июн-09 15:26
(спустя 7 мин., ред. 29-Июн-09 15:26)
m0j0
DVDSubEdit не пробывали?
Чему не верите? В воркшопе большинство правок выполняется автоматически.
|
|
MaLLIeHbKa
Стаж: 17 лет 11 месяцев Сообщений: 3673
|
MaLLIeHbKa ·
29-Июн-09 15:36
(спустя 10 мин., ред. 29-Июн-09 15:50)
BOLiK_Ltd писал(а):
Для рипа 1000 картинок нужно максимум те же 20-25 минут с пустой матрицей.
Ну, чтобы не быть голословным: вот Вам sup'ы (или вот), как будет свободное время — сделайте, сравним полученный результат и затраченное время (:
BOLiK_Ltd писал(а):
кто сохраняет матрицы разных языков в один файл
Вы, боюсь, меня не поняли. Речь о случаях, когда в пределах одних и тех же сабов встречаются и русские, и английские слова (особенно часто это встречается в сабах комментариев — названия фильмов, компаний, и т.д.).
И чтобы не было недопонимания: я, в общем-то, не собираюсь холиварить, меряться рипалками, и т.д. (: Если Вам удобнее и роднее пользоваться SupRip'ом — пользуйтесь на здоровье. Ни одна японская бензопила в руках новичка не сравнится с профессионально владеющим топором лесорубом (: Никто же не говорит, что это единственно верный способ. Просто по мнению многих людей — это наиболее удобный/качественный способ, но это мнение вовсе не обязательно всеобъемлюще и безапеляционно (:
m0j0 писал(а):
Более точно ОпенОфис и Майкрософт Офис
Давай хоть ты без холиваров, я ж специально привела максимально нейтральный пример (:
m0j0 писал(а):
но всё не могу найти утилитку которая бы распаковывала бы sup в удобоваримые картинки
Так SubRip отлично распаковывает. Правда, с доставанием таймингов геморрой (точно не помню, давно последний раз пользовалась).
|
|
m0j0
Стаж: 16 лет 5 месяцев Сообщений: 2874
|
m0j0 ·
29-Июн-09 15:43
(спустя 7 мин., ред. 29-Июн-09 15:43)
BOLiK_Ltd писал(а):
Чему не верите? В воркшопе большинство правок выполняется автоматически.
Не верю что орфографию за 15 минут можно проверить.
BOLiK_Ltd писал(а):
DVDSubEdit не пробывали?
Спасибо! Одну картинку нормально распознал, сейчас будем пробовать с бОльшим количеством как пойдёт.
MaLLIeHbKa писал(а):
Так SubRip отлично распаковывает. Правда, с доставанием таймингов геморрой (точно не помню, давно последний раз пользовалась).
Тоже сейчас проверим.
MaLLIeHbKa писал(а):
Давай хоть ты без холиваров, я ж специально привела максимально нейтральный пример (:
Обожаю холивары MS vs OpenSource MaLLIeHbKa, а чем лучше двдшный sup в sub+idx? У меня есть какая то прога, но она как то криво переделывает..
|
|
zackary
Стаж: 17 лет 2 месяца Сообщений: 444
|
zackary ·
29-Июн-09 15:46
(спустя 2 мин., ред. 29-Июн-09 15:48)
MaLLIeHbKa
Доставание тайминга из ДВД НЕ геморой.
Запускаем SubtitleCreator и сразу жмём Ctrl+M. Загружаем туда *idx файл выдернутых пакетом сабов с ДВД. Потом кнопка save sub сохраняет в sup. Ну а теперь я думаю и так понятно что дальше, ну конечно же загружаем сабы в SUPread. Вуаля..., тайминги есть !
|
|
MaLLIeHbKa
Стаж: 17 лет 11 месяцев Сообщений: 3673
|
MaLLIeHbKa ·
29-Июн-09 15:47
(спустя 1 мин.)
m0j0 писал(а):
MaLLIeHbKa, а чем лучше двдшный sup в sub+idx?
А это лучше по соседним темам раздела походить, там на эту тему много интересного пишут (: Я с голым sub+idx практически никогда не работала, у меня как правило отправная точка — полный DVD (из-за дорог) (:
zackary писал(а):
Запускаем SubtitleCreator и сразу жмём Ctrl+M. Загружаем туда либо *ifo файл с ДВД либо *idx файл выдернутых пакетом сабов с ДВД. Потом кнопка save sub сохраняет в sup. Ну а теперь я думаю и так понятно что дальше, ну конечно же загружаем сабы в SUPread.
Ммм… похоже на удаление аппендицита через… ммм… ухо (: Но спасибо, при случае попробую и так.
|
|
m0j0
Стаж: 16 лет 5 месяцев Сообщений: 2874
|
m0j0 ·
29-Июн-09 15:49
(спустя 1 мин.)
zackary писал(а):
Запускаем SubtitleCreator и сразу жмём Ctrl+M
Вот он то как раз и криво в sub+idx перегоняет :\
|
|
zackary
Стаж: 17 лет 2 месяца Сообщений: 444
|
zackary ·
29-Июн-09 15:53
(спустя 4 мин., ред. 29-Июн-09 15:53)
MaLLIeHbKa
Вся работа с сабами похожа на удаление аппендицита через… ммм… ухо, а эта процедура занимает не больше 2 минут если выдернут пакет сабов, ну а если нет то выдернуть их займёт около 5 минут.
m0j0
Ты имеешь ввиду выдёргивает из ДВД ?
Выдернуть пакет сабов нужно VSRip.
|
|
BOLiK_Ltd
Стаж: 18 лет Сообщений: 1026
|
BOLiK_Ltd ·
29-Июн-09 15:56
(спустя 2 мин., ред. 29-Июн-09 15:56)
m0j0
Цитата:
Не верю что орфографию за 15 минут можно проверить.
Так попробуйте. Если качественно рипнули, то только успевай нажимать на "далее".
MaLLIeHbKa
Цитата:
Ну, чтобы не быть голословным: вот Вам sup'ы (или вот), как будет свободное время — сделайте, сравним полученный результат и затраченное время (:
Вы думаете, у меня есть свободное время?. Это я на работе вместо перекура, могу найти время с вами пообщаться. Давайте договоримся так, как соберусь перегонять очередной блю в DVD, я вам закину с него сабы.
Цитата:
И чтобы не было недопонимания: я, в общем-то, не собираюсь холиварить, меряться рипалками, и т.д.
Собсвенно, я то же.
ЗЫ: Я это к тому, что могли бы и упомянуть в качестве альтернативы.
m0j0
Попробуйте тот же DVDSubEdit.
|
|
MaLLIeHbKa
Стаж: 17 лет 11 месяцев Сообщений: 3673
|
MaLLIeHbKa ·
29-Июн-09 16:09
(спустя 13 мин.)
BOLiK_Ltd писал(а):
Вы думаете, у меня есть свободное время?
Я же не сказала: «сделайте», я сказала: «как будет свободное время — сделайте» (: Поскольку это чистый спортивный интерес, разумеется, неразумно было бы тратить на него рабочее/личное время (:
BOLiK_Ltd писал(а):
как соберусь перегонять очередной блю в DVD, я вам закину с него сабы
Ок (:
BOLiK_Ltd писал(а):
ЗЫ: Я это к тому, что могли бы и упомянуть в качестве альтернативы.
Вообще да, я бы добавила в заголовок приписку «…с помощью FineReader'а», ибо альтернативам, если память мне не изменяет, посвящены отдельные треды, да и не нужны там особо инструкции в силу тривиальности методики (:
|
|
m0j0
Стаж: 16 лет 5 месяцев Сообщений: 2874
|
m0j0 ·
29-Июн-09 16:25
(спустя 16 мин.)
Вобщем разобрался как с помощью свзки subrip+supread+finereader рипнуть сабы с ДВД. Методика требует доработки, но гораздо интереснее чем просто subrip %)
MaLLIeHbKa писал(а):
Вообще да, я бы добавила в заголовок приписку «…с помощью FineReader'а», ибо альтернативам, если память мне не изменяет, посвящены отдельные треды, да и не нужны там особо инструкции в силу тривиальности методики (:
Сделаю.
zackary писал(а):
Выдернуть пакет сабов нужно VSRip.
То что нужно, спасибо!
|
|
m0j0
Стаж: 16 лет 5 месяцев Сообщений: 2874
|
m0j0 ·
02-Июл-09 16:57
(спустя 3 дня)
Добавил два пункта в инструкцию
MaLLIeHbKa писал(а):
Я сюда на выходных зааттачу тулзу для этих целей.
Ждём к пасхе?
|
|
MaLLIeHbKa
Стаж: 17 лет 11 месяцев Сообщений: 3673
|
MaLLIeHbKa ·
02-Июл-09 17:06
(спустя 9 мин.)
m0j0 писал(а):
Ждём к пасхе?
Ждём, когда у меня сверхурочные закончатся (: Сырой код выкладывать не хочу.
|
|
m0j0
Стаж: 16 лет 5 месяцев Сообщений: 2874
|
m0j0 ·
02-Июл-09 17:08
(спустя 1 мин.)
MaLLIeHbKa
Да мы потестим
|
|
MaLLIeHbKa
Стаж: 17 лет 11 месяцев Сообщений: 3673
|
MaLLIeHbKa ·
02-Июл-09 17:14
(спустя 6 мин.)
m0j0
скрытый текст
m0j0 писал(а):
Замена более чем трех точек идущих подряд на троеточие
*двух, двух точек (:
\.{2,}
матчит две и более подряд стоящие точки (:
|
|
m0j0
Стаж: 16 лет 5 месяцев Сообщений: 2874
|
m0j0 ·
02-Июл-09 17:16
(спустя 1 мин.)
MaLLIeHbKa
fixed. больше недочетов/ошибок нету?
|
|
MaLLIeHbKa
Стаж: 17 лет 11 месяцев Сообщений: 3673
|
MaLLIeHbKa ·
02-Июл-09 17:59
(спустя 43 мин., ред. 02-Июл-09 17:59)
m0j0 писал(а):
000 распознается как ООО
Во-первых, у тебя написаны русские «ООО», а он может распознать их как английские (если язык документа смешанный).
Во-вторых, «ooo» может встречаться и в обычной речи (сам угадай, в каких диалогах) (:
Так что для надёжности лучше так:
скрытый текст
на
Это заменит три кириллических или латинских «O», идущих вслед за цифрой (с опциональным кол-вом пробелов), на 000.
+ Замены в первом и последнем спойлере (содержащие <i>) рассчитаны на отсутствие в тексте прочих тегов (к примеру, <b> — я их вырезаю, как неиспользуемые). Соответственно, если эти прочие теги в тексте есть, паттерны требуют небольшой доработки (если этого не сделать и прочие теги встретятся, соответствующие строки просто не будут обработаны, что в общем-то не смертельно (лучше не заменить что-нибудь нужное, чем заменить что-то ненужное)), которую легко сделать методом поверхностных аналогий (:
В остальном вроде нормально, точно же покажет практика (:
|
|
m0j0
Стаж: 16 лет 5 месяцев Сообщений: 2874
|
m0j0 ·
02-Июл-09 18:01
(спустя 2 мин.)
MaLLIeHbKa писал(а):
Так что для надёжности лучше так:
Подправил
MaLLIeHbKa писал(а):
+ Замены в первом и последнем спойлере (содержащие <i>) рассчитаны на отсутствие в тексте прочих тегов (к примеру, <b> — я их вырезаю, как неиспользуемые). Соответственно, если эти прочие теги в тексте есть, паттерны требуют небольшой доработки (если этого не сделать и прочие теги встретятся, соответствующие строки просто не будут обработаны, что в общем-то не смертельно (лучше не заменить что-нибудь нужное, чем заменить что-то ненужное)), которую легко сделать методом поверхностных аналогий (:
Ладно, ручками тоже надо работать!
|
|
SSJS
Стаж: 17 лет Сообщений: 10
|
SSJS ·
05-Июл-09 07:23
(спустя 2 дня 13 часов)
А не проще воспользоваться этой прогой, в папке Temp будут лежать уже готовые файлы
SRT
h**p://www.afterdawn.com/software/video_software/video_encoders/ripbot264.cfm
|
|
m0j0
Стаж: 16 лет 5 месяцев Сообщений: 2874
|
m0j0 ·
05-Июл-09 07:43
(спустя 19 мин.)
А что мы тут целую страницу обсуждали?
|
|
zackary
Стаж: 17 лет 2 месяца Сообщений: 444
|
zackary ·
05-Июл-09 07:47
(спустя 3 мин.)
SSJS писал(а):
А не проще воспользоваться этой прогой, в папке Temp будут лежать уже готовые файлы
SRT
h**p://www.afterdawn.com/software/video_software/video_encoders/ripbot264.cfm
Ты хочешь сказать что эта супер-прога сама на полном автомате рипнет сабы ?
|
|
m0j0
Стаж: 16 лет 5 месяцев Сообщений: 2874
|
m0j0 ·
07-Июл-09 14:07
(спустя 2 дня 6 часов)
MaLLIeHbKa
Когда в следующий раз будешь распозновать сабы, проверь пожалуйста как повлияет на распознавание выставление разрешения 96 dpi - мне кажется оно более корректно.
|
|
Azazello1974_1
Стаж: 16 лет 7 месяцев Сообщений: 12
|
Azazello1974_1 ·
07-Июл-09 14:34
(спустя 27 мин.)
Добрый день всем! Нарисовалась такая вот проблема:
Есть такой диск "Mozart: Don Giovanni [2-Disc Edition] (2008) Blu-ray 1080i AVC LPCM 5.1". Задача - выдернуть из него английский субтитры.
После первого шага получил кучку картинок вот такого плана
После загрузки их в Файнридер получил такую картину:
А вот после распознавания получилась вот такая вот фигня:
т.е. на большей части картинок ничего не распозналось вообще, а на оставшихся рапозналось что-то непонятное.
Что я делаю не так? Настройки Файнридера - точно такие же как и первом посте.
|
|
m0j0
Стаж: 16 лет 5 месяцев Сообщений: 2874
|
m0j0 ·
07-Июл-09 14:38
(спустя 3 мин., ред. 07-Июл-09 14:44)
Azazello1974_1
Залей пожалуйста пару картинок вытащенных из суприпа куда нибудь.
Скорее всего надо сделать
MaLLIeHbKa писал(а):
Перед загрузкой в ФайнРидер, конвертни их в grayscale-палитру любым графическим редактором, а так же задери яркость и контраст (+100).
|
|
MaLLIeHbKa
Стаж: 17 лет 11 месяцев Сообщений: 3673
|
MaLLIeHbKa ·
07-Июл-09 14:44
(спустя 5 мин., ред. 07-Июл-09 15:06)
Azazello1974_1
https://rutr.life/forum/viewtopic.php?p=23302982#23302982
Если ФайнРидер откажется нормально воспринимать контурные буквы, можно в том же фотошопе залить фон «ведром» (когда подберёте удачные настройки по одной картинке — запишите batch и натравите его на все картинки) того же цвета, что и контуры — получатся аккурат белые/черные буквы на черном/белом фоне (который поглотит однотонную с ним контурную обводку).
|
|
m0j0
Стаж: 16 лет 5 месяцев Сообщений: 2874
|
m0j0 ·
07-Июл-09 16:25
(спустя 1 час 40 мин., ред. 07-Июл-09 16:25)
MaLLIeHbKa
MaLLIeHbKa писал(а):
Если ФайнРидер откажется нормально воспринимать контурные буквы, можно в том же фотошопе залить фон «ведром» (когда подберёте удачные настройки по одной картинке — запишите batch и натравите его на все картинки) того же цвета, что и контуры — получатся аккурат белые/черные буквы на черном/белом фоне (который поглотит однотонную с ним контурную обводку).
Есть способ автоматизации (заливки ведром выделенной части на большом количестве картинок)?
|
|
|