|
fulushou3
Стаж: 13 лет 1 месяц Сообщений: 963
|
fulushou3 ·
04-Окт-17 19:19
(7 лет 1 месяц назад)
BUDHA-2007
Я не использую этих программ, хотя пробовал первые две (года два назад).
Algona - отечественный продукт, для него есть и инструктаж, и готовые русско-английские тексты (автор со мной вступал в переписку). Недостаток при подготовке собственных билингв - слишком уж мудреная система, по ней надо сводить даже не предложения и абзацы, а, по-моему, фрагменты предложений (может это необязтельно).
Интертекст сделал чех, но сайт на английском (в переписку вступал). ЭТа программа у меня сейчас не установлена, по моим воспоминаниям, довольно неплохо работала автоматическая подгонка двух текстов с помощью утилиты (она как-то к программе либо подключается, либо идёт в комплекте, вызывалась из самой же программы) .
|
|
BUDHA-2007
Стаж: 15 лет 11 месяцев Сообщений: 10652
|
BUDHA-2007 ·
04-Окт-17 20:40
(спустя 1 час 20 мин., ред. 04-Окт-17 20:40)
kekusinb писал(а):
73953813когда Вы убедитесь в истинности религиозной точки зрения и её полной согласованности с безспорными эмпирическими свидетельствами честной науки.
Я имею имперический опыт запредельного и благодати Божией и с уверенностью вам заявляю, что так называемое откровение Иоанна (судный день) приписано людьми, которые не фига не поняли Иисуса. Более того, я знаком с восточными учениями и с западными и утверждаю, что они говорили об одном и том же в конечно счете. Точнее основатели учений. Затем эти учения зарастали ритуалами, созданными людьми, не понявшими учения или понявшие только интеллектуально. Поэтому сейчас отделить котлету от мух практически не может обычный человек, кроме тех кто "имеющий глаза - да увидит". Православие в своей основе - религия отшельников. Став церковью практически потеряла свою основу. У христиан извращены такие понятия как грех и покаяние. Современные христиане - это хитрые евреи. Пора бы понять наконец, что покаяние, как и отпущение грехов возможно только один раз. И для этого не нужен церковнослужитель. Покаяние - это и есть отпускание грехов. Покаяние - это самоочищение. А далее Иисус говорит: "Иди и больше не греши". А это возможно только в одном случае - если после покаяния ты наполнился благодатью Божией. Без нее ты продолжишь грешить.
На Востоке благодать Божию называли самадхи или праджня. Это изначальное состояние человека, состояние Адама с Саду Эдемском. Это состояние, в котором человек в ладу с собой и Богом.
fulushou3 писал(а):
73955852Я не использую этих программ, хотя пробовал первые две (года два назад).
Значит опять возвращаемся к Илье Франку?
|
|
gudzuk77
Стаж: 14 лет 10 месяцев Сообщений: 129
|
gudzuk77 ·
05-Окт-17 13:01
(спустя 16 часов)
totalityoffacts подскажи пожалуйста по методу Ивернеса сколько раз в день нужно повторять слова.
И еще один вопрос, ко всем, что делать если чувствуешь плато?
|
|
kekusinb
Стаж: 17 лет 9 месяцев Сообщений: 132
|
kekusinb ·
05-Окт-17 13:23
(спустя 22 мин., ред. 05-Окт-17 13:23)
gudzuk77
Если Вы имеете в виду отсутствие прогресса, то, на самом деле, долгое отсутствие результата не является разочаровывающей проблемой - наоборот, "time is your friend" (Fuller Graham E. How to Learn a Foreign Language. Friday Harbor, WA: Storm King Press, 1987). Надо продолжать заниматься.
rrrrsssaaaa писал(а):
73951708Сущность всех продуктов - repetitio est mater studiorum. Где новые идеи?
Есть одна, относительно новая - Variety is a spice of life. То есть, конечно и всё-таки, повторение, но не чего-то одного, а многих и разных вещей. BUDHA-2007
Глубоко сожалею, но у меня остаётся только любимая (которую I hate to love) пословица: You can take a horse to water, but you can't make it drink.
|
|
JoSevlad
Стаж: 13 лет 9 месяцев Сообщений: 1421
|
JoSevlad ·
05-Окт-17 13:31
(спустя 7 мин.)
gudzuk77
Продолжать заниматься - оно так обычно и идет - скачок -> остановка-закрепление -> опять скачок. Ну и не забывать усложнять уровень материалов там где чувствуется остановка прогресса. А иногда может казаться только, что в плато попал - тут неплохо бы иметь какой-то постоянный инструмент дабы прогресс можно было отслеживать.
|
|
mon_day
Стаж: 15 лет 5 месяцев Сообщений: 383
|
mon_day ·
05-Окт-17 16:17
(спустя 2 часа 46 мин.)
BUDHA-2007 писал(а):
73952544- InterText editor
- Aglona Reader
- ABBYY Aligner
Мне интересней всего показалась вторая, т.к. в ней можно добавить аудио. Если есть аудиокнига с субтитрами, ее можно открыть в любом плеере, их поддерживающем, но основа здесь - звуковой файл. В Aglona Reader основа - текст.
fulushou3 писал(а):
73955852Algona ...
Недостаток при подготовке собственных билингв - слишком уж мудреная система, по ней надо сводить даже не предложения и абзацы, а, по-моему, фрагменты предложений
Из описания: "В парах может содержаться текст как частей предложений, так и сразу нескольких предложений." Разбиение предложений, как понял, автор сделал ради удобного просмотра при выборе режима "Alternating mode".
Программа неплохая, но процесс подготовки довольно трудоемкий. Если делать с оригинальной озвучкой, то сначала нужно синхронизировать тексты, а потом с помощью программы ParaBooksMaker свести текст и аудио на иностранном. Ни первая, ни вторая программа не дают возможности подгрузить субтитры. Под авторским видео писали об этом в комментарии, но автор имхо включил дурака, отписавшись: "написать конвертер 2xSRT -> PBO не сложно, только где это пригодится?" или "Вы говорите с точки зрения одиночного потребителя". Других программ, работающих с форматом pbo или pbs, не обнаружил.
Abby Aligner может открыть файлы в разных форматах и "сравнивает сегменты исходного текста с сегментами переведенного текста, используя словарные базы и проверяя их на смысловое сходство. Таким образом, программа наиболее точно находит соответствующие друг другу сегменты и качественнее выравнивает текст". Все хорошо, но на выходе у нее только форматы rtf и tmx, т.е. тогда либо в ней самой сводить и читать, либо смотреть, что и как она сохраняет в rtf.
|
|
Montgomery334
Стаж: 14 лет 2 месяца Сообщений: 465
|
Montgomery334 ·
05-Окт-17 17:13
(спустя 56 мин.)
BUDHA-2007
Вот вам тема для обсуждении религии, именно там вы можете обсудить всё что имел ввиду Иисус. А здесь проявите уважение к участникам дискуссии, не всем интересно читать религиозную муть.
|
|
Cz83
Стаж: 14 лет 2 месяца Сообщений: 431
|
Cz83 ·
05-Окт-17 18:20
(спустя 1 час 7 мин., ред. 05-Окт-17 18:20)
gudzuk77 писал(а):
73959463И еще один вопрос, ко всем, что делать если чувствуешь плато?
How To Easily Get Beyond Language Learning Plateaus
Если кратко, то найти макро и микро цели по критериям SMART, или более продвинутым;
Принцип который использовал Арнольд Шварценеггер - не давать телу привыкнуть к тренировкам, "шоковый принцип".
Можно использовать ток в занятиях ; ротация упражнений, тренировок.
Это как в боксе чем более разнообразные тренировки, тем сильнее боксер.
Короче разнообразие и использование электрического тока в тренировках
помогут преодолеть любое плато, где бы оно не возникло.
|
|
gudzuk77
Стаж: 14 лет 10 месяцев Сообщений: 129
|
gudzuk77 ·
05-Окт-17 19:27
(спустя 1 час 6 мин.)
JoSevlad если занимаешься американским американским вариантом, обрати внимание на Rachel Varra - Easy American Idioms, там не только изучение английского, но и аудирование, т. к. там есть прелести американского произношения.
|
|
totalityoffacts
Стаж: 15 лет 11 месяцев Сообщений: 657
|
totalityoffacts ·
05-Окт-17 20:06
(спустя 39 мин.)
Cz83 писал(а):
73954479На подобии такой
Не знаю, я внутрь не заглядывал. Принцип хороший, но как они реализовали — не знаю. gudzuk77 Я прохожу только один раз так слова. Иверсен еще рекомендует на следующий день повтор делать, поэтому у него там 5 столбиков. Но я повторы сразу делаю перечитыванием, переслушиванием — чтобы был контекст. Если на 600 страниц 300 новых слов — просто пересматриваю их в контексте несколько раз. Если плотность слов большая — переслушиваю пару раз аудиокнигу. Без фанатизма — при наличии свободного времени и желания. Списки Иверсена использую только для редкочастотных и "упрямых" слов — которые мне нужны только для пассивного словаря.
|
|
BUDHA-2007
Стаж: 15 лет 11 месяцев Сообщений: 10652
|
BUDHA-2007 ·
06-Окт-17 01:32
(спустя 5 часов, ред. 09-Окт-17 13:00)
gudzuk77 писал(а):
73959463что делать если чувствуешь плато?
В физ подготовке есть такой прием: Тягаешь большие веса, а результата нет. Тогда начинаешь с малых. Грубо говоря, нужно раскачать лодку, бросаясь в крайности.
kekusinb писал(а):
73959540You can take a horse to water, but you can't make it drink.
When a horse wants to drink water - it finds it without any help. Montgomery334
Во первых, я уже сказал, что хотел о "религиозной мути".
Во вторых, обсуждать "религиозную муть" - это самое глупое занятие. Ты или этим живешь (религиозен) или нет. Обсуждать нечего.
Любая религия - это в конце концов твое общение с Богом один на один. Нет никого рядом с кем можно это обсудить, кроме Бога. Это самый интимный процесс.
|
|
InLearning
Стаж: 7 лет 6 месяцев Сообщений: 6
|
InLearning ·
07-Окт-17 13:21
(спустя 1 день 11 часов)
Добрый день! Где можно скачать английскую литературу в оригинале? на рутрекере очень мало представлено, в основном адаптированная литература.
|
|
Cz83
Стаж: 14 лет 2 месяца Сообщений: 431
|
Cz83 ·
07-Окт-17 13:51
(спустя 30 мин., ред. 10-Окт-17 11:01)
InLearning писал(а):
73971210Добрый день! Где можно скачать английскую литературу в оригинале? на рутрекере очень мало представлено, в основном адаптированная литература.
В интернете можно. => gen.lib.rus.ec, bookfi.net,b-ok.org, Demonoid.pw, google.com
А что качать можно посмотреть здесь => www.amazon.com/books-used-books-textbooks, www.goodreads.com
Для создания базы книг и быстрого поиска => Archivarius 3000, everything
https://opentrackers.org/downloading-ebooks-textbooks/
|
|
День знаний
Стаж: 10 лет 2 месяца Сообщений: 2125
|
День знаний ·
07-Окт-17 15:00
(спустя 1 час 8 мин.)
InLearning писал(а):
73971210на рутрекере очень мало представлено, в основном адаптированная литература.
Сюда и туда заходили?
|
|
Nickliverpool
Стаж: 16 лет 5 месяцев Сообщений: 529
|
Nickliverpool ·
08-Окт-17 01:22
(спустя 10 часов, ред. 08-Окт-17 01:22)
Ради интереса сделал на скорую руку первую часть Goosebumps 01 - Welcome to Dead House в виде pbs файла для Aglona Reader (или субтитры для mpv видеоплеера) с помощью ABBYY Aligner и aeneas ( ссылка).
|
|
fulushou3
Стаж: 13 лет 1 месяц Сообщений: 963
|
fulushou3 ·
08-Окт-17 01:46
(спустя 24 мин.)
InLearning
На бухте можно целыми коллекциями скачать - про запас. Идете в раздел books, выставляете сортировку по размеру (от болього к малому), игнорируете ненужное (журналы, газеты, книги на испанском), пару раздач (вдруг у одной сидов будет мало, или вообще не будет) выбираете и ставите на закачку.
Класску можно с сайта гутенберга скачивать.
|
|
JoSevlad
Стаж: 13 лет 9 месяцев Сообщений: 1421
|
JoSevlad ·
08-Окт-17 12:00
(спустя 10 часов)
Nickliverpool
А можно по aeneas, по офлайн-версии, и автоматической генерации субтитров https://www.youtube.com/watch?v=LEyRfy7TsnE инструкцию для простых смертных, а то в той, что есть на гитхабе, я понял - мне и поллитры будет маловато разобраться.))) Да, и как обходили комментарии начитчика не по тексту, вручную вылавливали или программа и такое обойти умеет? Хочу себе под RKLIM книжечек нарезать, да и в Workaudiobook с субтитрами фразы будут точные...
|
|
mon_day
Стаж: 15 лет 5 месяцев Сообщений: 383
|
mon_day ·
08-Окт-17 13:54
(спустя 1 час 53 мин.)
Nickliverpool
Тоже вопрос хотел задать.
Как понял, en.aligned.txt и ru.aligned.txt получены с помощью ABBYY Aligner, т.е. программа позволяет сохранять текстовые файлы или копировать для вставки в них?
srt получен с помощью aeneas.
А как pbs получен? Посмотрев его структуру, предполагаю, что скриптом, тем более не зря же количество строк в файлах одинаковое. Скрипт тоже был бы интересен. Кстати, в pbs Goosebumps остался заголовок The Hound of the Baskervilles ) Сколько всего заняло по времени?
JoSevlad, для aenas есть installer для windows на сайте. Хотя предпочел бы portable версию.
|
|
JoSevlad
Стаж: 13 лет 9 месяцев Сообщений: 1421
|
JoSevlad ·
08-Окт-17 15:17
(спустя 1 час 23 мин.)
mon_day
Да с установкой проблем не было, там бы с самой работой подразобраться, оказалось нужно было в онлайн-версии в документацию зайти, там она получше оформлена https://www.readbeyond.it/aeneas/docs/index.html
Теперь пытаюсь Pragmatic Segmenter одолеть, не хочет ставиться...
|
|
mon_day
Стаж: 15 лет 5 месяцев Сообщений: 383
|
mon_day ·
08-Окт-17 15:46
(спустя 28 мин., ред. 08-Окт-17 15:46)
JoSevlad писал(а):
73978413Теперь пытаюсь Pragmatic Segmenter одолеть, не хочет ставиться...
У меня в win7 x64 установился (мой комментарий дальше). Но выровнять текст в windows можно и в продвинутом редакторе с поддержкой регулярных выражений, в том же notepad++
А вот aeneas хотя установился без ошибок, работать не хочет. ((
Для Goosebumps при запуске батника:
скрытый текст
Код:
chcp 65001
SET PYTHONIOENCODING=UTF-8
python -m aeneas.tools.execute_task 1.mp3 en.aligned.txt "task_language=eng|os_task_file_format=srt|is_text_type=plain" subtitles.srt
Выдает:
[INFO] Validating config string (specify --skip-validator to bypass)...
[INFO] Validating config string... done
[INFO] Creating task...
[INFO] Creating task... done
[INFO] Executing task...
Какое-то время висит, а потом python падает.
С сайта програмы ParaBooksMaker попробовал еще пример Alice's Adventures in Wonderland. Python не падает, но в конце:
[ERRO] An unexpected error occurred while executing the task:
[ERRO] Unexpected error while executing task :
И никакой srt не создается.
Пробовал обработать текстовый файл скриптом text-segmenter.rb, все равно ошибка.
|
|
JoSevlad
Стаж: 13 лет 9 месяцев Сообщений: 1421
|
JoSevlad ·
08-Окт-17 16:36
(спустя 50 мин., ред. 08-Окт-17 16:36)
mon_day
Тоже смотрел в сторону регулярных выражений, но решил попробовать, понравилось мне в онлайнварианте - в общем откатил Ruby до 2.3.3, и пришлось поставить DevKit - тогда и на 64 версию встало... Буду разбираться.)) Кто будет пробовать aeneas - нужно в рабочей папке, из которой он запущен, обязательно создать папку output, я проглядел...
|
|
Nickliverpool
Стаж: 16 лет 5 месяцев Сообщений: 529
|
Nickliverpool ·
08-Окт-17 18:19
(спустя 1 час 42 мин., ред. 08-Окт-17 18:19)
JoSevlad писал(а):
73977225А можно по aeneas, по офлайн-версии, и автоматической генерации субтитров YouTube: LEyRfy7TsnE инструкцию для простых смертных
Будет, но позже (точно не сегодня). Возможно, будет для Ubuntu (но там всё стандартно, кроме того, что нужно дополнительно установить sudo apt-get install libespeak-dev, чтобы при установке aeneas не было ошибки) и не будет для Windows версии, т.к. у меня не получилось запустить aeneas на Windows x86, т.е. полгода назад запускалась, но на другом файле получившиеся субтитры не совпадали с аудио, хотя на веб-версии всё было отлично, а сейчас на файле с Goosebumps падает с ошибкой Unexpected error while executing task. А на 64-битной версии Windows получится попробовать aeneas только на следующей неделе. Хотя, может быть, и не будет, если не получится под Windows запустить.
В общем, пока, наверное, лучше пользоваться онлайн-версией http://aeneasweb.org.
JoSevlad писал(а):
73977225Да, и как обходили комментарии начитчика не по тексту, вручную вылавливали или программа и такое обойти умеет?
Там можно с помощью is_audio_file_head_length задать, сколько секунд пропустить с начала файла, и с помощью is_audio_file_process_length задать, сколько секунд пропустить с конца файла, указав общую продолжительность фрагмента, который необходимо синхронизировать.
Нашел тут - http://www.albertopettarin.it/blog/2015/05/21/a-practical-introduction-to-the-aeneas-package.html
То есть команда получилась следующая:
Код:
python -m aeneas.tools.execute_task 1.mp3 en.aligned.txt "task_language=en|is_text_type=plain|os_task_file_format=srt|is_audio_file_head_length=32|is_audio_file_process_length=4108" 1.srt
Правда, у меня было случай, когда файл и текст совпадали, но в получившихся субтитрах синхронизированы были только начало и конец фрагмента, а субтитры в середине файла не соответствовали аудио. Пришлось в плеере находить начало и конец рассинхрона, вырезать этот кусок с помощью ffmpeg и синхронизировать его отдельно, а потом с помощью Aegisub объединять все 3 части в один файл с субтитрами.
Еще был случай, когда из текста забыл удалить мусор в конце, и из-за этого сгенерированные субтитры не совпадали с аудио.
mon_day писал(а):
73977875Как понял, en.aligned.txt и ru.aligned.txt получены с помощью ABBYY Aligner, т.е. программа позволяет сохранять текстовые файлы или копировать для вставки в них?
Сохранил в формате tmx и потом в Sublime Text удалил весь мусор и разбил на 2 файла. Наверное, завтра распишу подробнее.
mon_day писал(а):
73977875А как pbs получен? Посмотрев его структуру, предполагаю, что скриптом, тем более не зря же количество строк в файлах одинаковое.
Да, по большей части скриптом на Python, но я его уже успел удалить случайно, поэтому скину, может быть, завтра.
Цитата:
Сколько всего заняло по времени?
Пока то да сё, то часа 4 точно провозился, возможно, цифра ближе к 6 часам, но не суть важно, в принципе, если не править результат в ABBYY Aligner, то минут за 30 где-то можно сделать, возможно, даже и за меньшее время, т.к. ручной работы, не считая ABBYY Aligner, минимум.
mon_day писал(а):
73978548
JoSevlad писал(а):
73978413Теперь пытаюсь Pragmatic Segmenter одолеть, не хочет ставиться...
У меня в win7 x64 установился (мой комментарий дальше).
Для Goosebumps использовал чуть улучшенную версию для английского текста ( ссылка).
|
|
JoSevlad
Стаж: 13 лет 9 месяцев Сообщений: 1421
|
JoSevlad ·
08-Окт-17 18:51
(спустя 32 мин.)
Nickliverpool писал(а):
73979550p
Да с началом и концом в принципе не вопрос, можно и обрезать просто.) Он там еще и между делом периодически перлы выдает, думал, а вдруг и такое обойти умеет...
По вылетам на Винде - в общем не любит оно больших объемов, обрезал текст и аудио - и сработало. Теперь вопрос - до какой длины можно без сбоев это дело наладить... Бум капать...
|
|
Nickliverpool
Стаж: 16 лет 5 месяцев Сообщений: 529
|
Nickliverpool ·
08-Окт-17 21:07
(спустя 2 часа 15 мин.)
JoSevlad писал(а):
73979806Он там еще и между делом периодически перлы выдает, думал, а вдруг и такое обойти умеет...
Нашел на Google Groups как раз похожий вопрос - https://groups.google.com/d/msg/aeneas-forced-alignment/Xq2otfGwZmg/UuL4Sp__AgAJ
JoSevlad писал(а):
73979806По вылетам на Винде - в общем не любит оно больших объемов, обрезал текст и аудио - и сработало.
Отлично. У меня, правда, если обрезать файл до 30 минут, все равно падает, но да ладно, есть Ubuntu и на 64-битной версии Windows 10 еще на неделе попробую запустить.
JoSevlad писал(а):
73979806Теперь вопрос - до какой длины можно без сбоев это дело наладить...
Нашел следующее сообщение в Google Groups. На 64-битной версии Ubuntu у меня программа падала уже на 6 часах, а 3-4 часа вроде бы обрабатывала корректно, хотя в реальности, возможно, было и меньше, т.к. прошло уже больше месяца и результаты не сохранились.
|
|
JoSevlad
Стаж: 13 лет 9 месяцев Сообщений: 1421
|
JoSevlad ·
08-Окт-17 21:45
(спустя 38 мин.)
Nickliverpool писал(а):
73980754k
Там что-то близкое к этому
скрытый текст
"On the other hand, if the spurious parts are scattered through the text
(e.g., sometimes the narrator skips or adds a word, or inverts a few
words, etc.), then aeneas should be able to deal with those."
Так что, в принципе и может получиться...
У меня файлик на 10 с хвостиком минут прошел, изначально был двухчасовой и потом одночасовой, они валили. Но и текст должен быть подогнан, т.е. начинаться и завершаться фразами из аудио...
Ну и как вариант, там еще под виртуалку вроде версия есть, ее рекомендует пробовать...
|
|
mon_day
Стаж: 15 лет 5 месяцев Сообщений: 383
|
mon_day ·
09-Окт-17 22:05
(спустя 1 день, ред. 09-Окт-17 22:05)
Пакеты whl в составе aeneas ставятся только в python 2.7, хотя есть версия 3.6 и возможно скрипты в ней работали бы лучше. Эти пакеты не ставятся в Python 2.7 x64, поэтому имхо стабильнее должно работать в win7 x32.
Максимальная продолжительность файла, для которого пока получилось создать субтитр - 34 минуты (Герберт Уэллс Война миров Book 2 Chapter 07, скачал на сайте программы workaudiobook. В mp3 обрезал вступление до начала текста.
text-segmenter.rb не разнес по строкам много блоков с предложениями, записанными в одну строку, пример одного из блоков:
скрытый текст
We had been incapable of co-operation--grim chance had taken no heed of that. Had I foreseen, I should have left him at Halliford. But I did not foresee; and crime is to foresee and do. And I set this down as I have set all this story down, as it was. There were no witnesses--all these things I might have concealed.
Сделал потом в np++ регулярным выражением.
Плохо, что нет лога, на какой строке заткнулся скрипт. А также можно было бы сделать сохранение промежуточных результатов, чтобы определить либо строку, которую скрипт не может обработать или позицию в аудио-файле для последующей нарезки, если причина краха программы в другом.
JoSevlad писал(а):
73978818Кто будет пробовать aeneas - нужно в рабочей папке, из которой он запущен, обязательно создать папку output, я проглядел...
В win7 мне ничего создавать не потребовалось.
|
|
JoSevlad
Стаж: 13 лет 9 месяцев Сообщений: 1421
|
JoSevlad ·
09-Окт-17 22:57
(спустя 51 мин., ред. 09-Окт-17 22:57)
mon_day
В общем, в 32 битных там выделяемой памяти не хватает для длинных, насколько я понял. А в 64 битные у меня все никак не удается поставить. Там есть еще для виртуальной машины, через Vagrant - но тоже чего-то никак. Видать придется линуха ставить, в нем вроде как все нормально, автор официально под Дебиан с Убунтой, кажись, только тестировал, в принципе давно хотел поиграться... Кстати, та версия, что в виндовом установщике, не последняя...
В онлайн версии пишут, если аудио до полутора часов, то можно не париться и через них синхронить. Я тут 1 часть 3 книги Monster Blood пропустил через них - вроде неплохо, по титрам посчелкал, косячки были, где он совсем сильно лишнюю болтовню начинал, но потом все опять подхватывалось, где слово-другое всталял, там без сбоев. Т.е. нормальные книги должно вообще без особых проблем синхронить...
mon_day писал(а):
73986975text-segmenter.rb не разнес по строкам много блоков
Сейчас глянул, что скриптом разбивал, тоже есть по нескольку предложений на строку - во всех таких случаях это был текст в кавычках, может где-то тут косяк? Через онлайн версию вроде такого не заметил. Но наверное да, лучше автозамену настроить...
mon_day писал(а):
73986975В win7 мне ничего создавать не потребовалось.
Да, это я по запарке, тестовые примеры, что приложены к комплекту, смотрел. А в них прописана папка куда выводить, и чтобы они сработали нужно ее создать...
|
|
Nickliverpool
Стаж: 16 лет 5 месяцев Сообщений: 529
|
Nickliverpool ·
09-Окт-17 23:07
(спустя 10 мин.)
Nickliverpool писал(а):
73979550Там можно с помощью is_audio_file_head_length задать, сколько секунд пропустить с начала файла, и с помощью is_audio_file_process_length задать, сколько секунд пропустить с конца файла, указав общую продолжительность фрагмента, который необходимо синхронизировать.
Есть еще параметр is_audio_file_tail_length, который вроде как для "сколько секунд пропустить с конца файла".
JoSevlad писал(а):
73977225А можно по aeneas, по офлайн-версии, и автоматической генерации субтитров YouTube: LEyRfy7TsnE инструкцию для простых смертных, а то в той, что есть на гитхабе, я понял - мне и поллитры будет маловато разобраться.
Инструкция для Goosebumps 01 - WelcomeToDeadHouse-Part2, но, думаю, подойдет и для автоматической генерации субтитров, хотя, как я понял, уже сами со всем разобрались :), но пусть будет.
- Сохранил английский и русский исходник в txt в кодировке Юникод (UTF-8).
- Очистил исходники от мусора в начале и конце файла и нашел время начала и конца чтения книги в аудиофайле (00:02:00 и 01:05:20).
- Воспользовался скриптом text-segmenter-en.rb (как запустить), чтобы разбить английский текст на предложения.
- В ABBYY Aligner открыл английский текст, разбитый на предложения, и русский файл, нажал на Align и сохранил получившийся результат в TMX формате (Export to TMX).
- Открыл получившийся tmx в Sublime Text и подчистил от мусора:
- Удалил заголовок, т.е. всё, что до тега <body> и сам тег <body> (первые 5 строчек), и последние 2 строчки.
- Удалил теги <tu> и </tu>.
Выделил тег, нажал Alt+F3 (Quick Find All), потом Backspace.
- Перенес </seg></tuv> с начала строки в конец предыдущей строки.
Выделил </seg></tuv>, нажал Ctrl+H (Replace...), в поле Find указал \s+^</seg></tuv> и в поле Replace: </seg></tuv>, нажал Ctrl+Alt+Enter (Replace All).
- Удалил все пустые строки сделав замену \n\n+ на \n и вручную удалив (вырезав) пустую первую строку (Ctrl+X).
- Объединил все строки, которые не начинаются с символа <, с предыдущей строкой, сделав замену \n^([^<]) на \1. Например, строки:
Код:
<tuv xml:lang="en-US"><seg>They talked with Josh and me, and let us on their teams.
But it was really hard to get to know them.</seg></tuv>
- Готово. В общем, протсо обычный "поиск и замена" и базовые регулярные выражения. В принципе можно обойтись и без них. Результат:
Код:
<tuv xml:lang="en-US"><seg>10</seg></tuv>
<tuv xml:lang="ru"><seg/></tuv>
<tuv xml:lang="en-US"><seg>The black clouds overhead seemed to lower.</seg></tuv>
<tuv xml:lang="ru"><seg>Черные тучи опустились чуть ли не до самой земли. </seg></tuv>
<tuv xml:lang="en-US"><seg>The air felt heavy and damp.</seg></tuv>
<tuv xml:lang="ru"><seg>Даже воздух сделался тяжёлым.</seg></tuv>
- Разбил tmx на два файла:
- Нажал Ctrl+Shift+W (Word Wrap), выделил <tuv xml:lang="en-US">, потом Alt+F3, чтобы выделить все совпадения, потом удерживая Shift нажал End, чтобы выделить всю строку, потом Ctrl+C, чтобы скопировать, Esc, чтобы снять выделение.
- Открыл новый файл (Ctrl+N) и вставил только что скопированные строчки с английским текстом (Ctrl+V).
- Аналогично и для русского текста, выделяя <tuv xml:lang="ru">.
- Потом удалил все теги либо вручную, выделяя каждый тег, нажимая Alt+F3 и Backspace, или через окно Replace, или при помощи регулярного выражения <[^>]+> через окно Find (Find: <[^>]+>, Alt+F3, Backspace), если файл не очень большой, или через окно Replace (Find: <[^>]+>, Replace: , Ctrl+Alt+Enter), и сохранил.
Лучше при помощи регулярного выражения, т.к. после удаления тегов из первого файла можно перейти к следующему файлу (на ноуте Ctrl+PgDn), открыть окно Replace (Ctrl+H), не выделяя ничего, и снова нажать Ctrl+Alt+Enter (Replace All).
Word Wrap (меню View - Word Wrap) необходим, чтобы при выделении от начала строки с помощью Shift+End была захвачена вся строка полностью, а не только та часть строки, которая поместилась на экране на этой строке.
Можно было выделить и с помощью регулярного выражения <tuv xml:lang="en-US">.*, потом нажать Alt+Enter и скопировать в новый файл.
В итоге получились 2 файла, содержащие 1642 строки.
- Сгенерировал субтитры по английскому тексту с помощью веб-версии https://aeneasweb.org
- Выбрал Generic Task.
- На вкладе Text выбрал en.2.aligned.txt.
- На вкладке Audio:
Выбрал 002-WelcomeToDeadHouse-Part2.mp3
Поставил галочку напротив Speech starts at time и вбил 00:02:00.000
Аналогично для Speech ends at time - 01:05:20.000
- На вкладке Output:
В Output File Name указал имя аудиофайла с расширением srt - 002-WelcomeToDeadHouse-Part2.srt
- Нажал Submit.
- Где-то минут через 5 на почту придет готовый результат.
Processing your Task took 100.404 seconds, corresponding to an estimated cost of 0.001004 Euro. Для сравнения, обработка этого же файла на Ubuntu заняло 28 секунд.
В общем, как-то так.
P.S. Версия aeneas на ноуте с 32-битной версией Windows у меня так и не работает из-за непонятной ошибки (добавлено: видимо, виновата продолжительность аудио 01:06:05 (совсем забыл про это ограничение)), но да ладно (в принципе, можно еще попробовать установить по авторской инструкции), а версия на 64-битной версии Windows запустилась, но полученный srt файл полностью не совпадает с аудио и обработка заняла заметно больше времени, т.к. со слов автора на Windows 64 недоступно cew расширение, которое ускоряет обработку аудио. Проблема на Windows 64 возможно связана с espeak, т.к. в логах (если при запуске добавить -v) случайно наткнулся на:
[DEBU] DTWAligner: Number of MFCC frames in real wave: 95000
[DEBU] DTWAligner: Number of MFCC frames in synt wave: 66469
И для сравнения эти же строчки только при запуске на Ubuntu:
[DEBU] DTWAligner: Number of MFCC frames in real wave: 95000
[DEBU] DTWAligner: Number of MFCC frames in synt wave: 92897
P.P.S. Скрипт для pbs, вероятно, будет уже завтра. Добавлено:
mon_day писал(а):
73986975text-segmenter.rb не разнес по строкам много блоков с предложениями, записанными в одну строку, пример одного из блоков
Мда, действительно, при этом онлайн-версия разбивает этот фрагмент.
mon_day писал(а):
73986975Максимальная продолжительность файла, для которого пока получилось создать субтитр - 34 минуты
Как-то очень мало. Попробую найти на x64 и отпишусь о результатах. Добавлено:
JoSevlad писал(а):
73987410Сейчас глянул, что скриптом разбивал, тоже есть по нескольку предложений на строку - во всех таких случаях это был текст в кавычках, может где-то тут косяк?
В улучшенной версии предусмотрел разбиение текста внутри двойных кавычек, правда, только обычных двойных, но она почему-то тоже пасует перед этим текстом, надо разбираться.
|
|
BUDHA-2007
Стаж: 15 лет 11 месяцев Сообщений: 10652
|
BUDHA-2007 ·
10-Окт-17 06:48
(спустя 7 часов)
Блин! Какие же вы продвинутые в плане владения программами и программированием для автоматизации ручного труда! Прям завидую! Но я даже не пытаюсь в это влезать. Это не мое.
|
|
JoSevlad
Стаж: 13 лет 9 месяцев Сообщений: 1421
|
JoSevlad ·
10-Окт-17 12:47
(спустя 5 часов)
BUDHA-2007
У Pragmatic segmenter и aeneas (разбить текст на предложения и сгенерировать субтитры) есть онлайн-версии, с ними попроще)), но придется аудио разбивать на куски не более полутора часов, в принципе, в нормальных книгах обычно по главам изначально разбито...
Кстати, Мурашки очень хороши оказались для демонстрации возможностей, раз такую речь+вставки не по тексту вполне неплохо обработать получается, с обычными книгами вообще особых проблем возникнуть не должно...
|
|
|