(Решено) Нейросетка от Mitsubishi для разделения аудио на 3 источника - спецэффекты, музыка и голос

Страницы:  1
Ответить
 

mel-on

Стаж: 17 лет

Сообщений: 75

mel-on · 18-Фев-23 12:22 (2 года 9 месяцев назад, ред. 18-Фев-23 20:09)

Незнаю куда эту тему разместить. В общем я сейчас занялся созданием коротких видео на ютуб из фрагментов фильмов и сериалов. Формат предполагает наложение подходящей музыки под фрагмент, которая усиливает эмоциональность и придает тот или иной окрас ситуации. Но редко когда в фрагменте звучит чисто речь, обычно на фоне есть посторонние звуки, саундрек или спецэффекты. Если оставлять как есть, то с музыкой получается каша, да и ютуб режет общую громкость. Поэтому я сначала прогоняю фрагмент через сервисы-нейросетки, которые отделяют голос и эффекты в отдельные файлы, а затем комбинирую по вкусу.
Пользуюсь пока что следующими вещами:
https://vocalremover.org/ - довольно быстрый, неплохо выделяет голос, но не умеет выделять спецэффекты, подходит только там, где не нужны спецэффекты (типа скрип двери, шаги и прочее)
https://mvsep.com/ - есть несколько моделей, умеет разделять аудио на три источника - Music, Sfx, Speech, но по вечерам километровые очереди ожидания
Иногда результат хорош, иногда не очень. Но ожидания в очереди очень тормозят творческий процесс. Я искал другие возможные варианты и наткнулся на вот такую вещь: https://hackernoon.com/this-ai-can-separate-speech-music-and-sound-effects-from-movie-soundtracks. Насколько я понимаю, это нейросетка, созданная (или проспонсированная.. незнаю) Mitsubishi Electric Research Laboratories именно для того, чтобы разделять аудиоисточники на три составляющих - музыка, голос и спецэффекты. Выглядит интересно и хотелось бы ее попробовать, но к сожалению я чайник в таких вещах и никак не могу разобраться как это дело установить и заставить работать.
Если бы кто-то разобрался и создал инструкцию для чайников (видео например) по установке (желательно на Windows), было бы очень неплохо, потому что вещь интересная, и наверняка не одному мне
Демонстрационное видео: https://youtu.be/1BR4SAKDhMk
[Профиль]  [ЛС] 

mel-on

Стаж: 17 лет

Сообщений: 75

mel-on · 18-Фев-23 23:29 (спустя 11 часов, ред. 18-Фев-23 23:29)

О, вроде получилось. Примерно напишу че делал. Скачал и установил cuda_10.2.89_win10_network.exe (нужен или нет не уверен), python-3.9.0-amd64.exe. Могут быть тут проблемы со всякими командами типа pip, но я их ранее решал, не помню как. Гуглите по мере появления.
Скачал репозиторий https://github.com/merlresearch/cocktail-fork-separation, распаковал в папку C:\temp\separator, зашел в cmd, cd C:\temp\separator, затем pip install -r requirements.txt, еще нужен pip install soundfile. Пытался выполнить команду "python separate.py --audio-path "C:\temp\separator\input\16.wav" --out-dir /separated/track1", но у меня сыпались то одни ошибки, то другие.
Оказалось нужно еще скачать и установить Git-2.39.2-64-bit.exe и git-lfs-windows-v3.3.0.exe. Затем в cmd выполнить git clone https://github.com/merlresearch/cocktail-fork-separation, т.к. я был в папке C:\temp\separator, в ней создалась еще одна папка с тем же репозиторием, ну не важно. Затем cd C:\temp\separator\cocktail-fork-separation, потом git lfs track "C:\temp\separator\cocktail-fork-separation\checkpoints\default_mrx_pre_trained_weights.pth" и уже заветную команду python separate.py --audio-path "C:\temp\separator\cocktail-fork-separation\input\16.wav" --out-dir /separated/track1, в папке C:\separated\track1 появились заветные music.wav, sfx.wav и speech.wav Теперь процесс работы пойдет быстрее
UPD: голос фигово выделяет, vocalremover.org справляется лучше, но вот для выделения sfx вроде норм
[Профиль]  [ЛС] 

Trap in FL Studio user

Стаж: 11 лет 8 месяцев

Сообщений: 8

Trap in FL Studio user · 06-Мар-23 16:31 (спустя 15 дней)

mel-on писал(а):
84317300О, вроде получилось. Примерно напишу че делал. Скачал и установил cuda_10.2.89_win10_network.exe (нужен или нет не уверен), python-3.9.0-amd64.exe. Могут быть тут проблемы со всякими командами типа pip, но я их ранее решал, не помню как. Гуглите по мере появления.
Скачал репозиторий https://github.com/merlresearch/cocktail-fork-separation, распаковал в папку C:\temp\separator, зашел в cmd, cd C:\temp\separator, затем pip install -r requirements.txt, еще нужен pip install soundfile. Пытался выполнить команду "python separate.py --audio-path "C:\temp\separator\input\16.wav" --out-dir /separated/track1", но у меня сыпались то одни ошибки, то другие.
Оказалось нужно еще скачать и установить Git-2.39.2-64-bit.exe и git-lfs-windows-v3.3.0.exe. Затем в cmd выполнить git clone https://github.com/merlresearch/cocktail-fork-separation, т.к. я был в папке C:\temp\separator, в ней создалась еще одна папка с тем же репозиторием, ну не важно. Затем cd C:\temp\separator\cocktail-fork-separation, потом git lfs track "C:\temp\separator\cocktail-fork-separation\checkpoints\default_mrx_pre_trained_weights.pth" и уже заветную команду python separate.py --audio-path "C:\temp\separator\cocktail-fork-separation\input\16.wav" --out-dir /separated/track1, в папке C:\separated\track1 появились заветные music.wav, sfx.wav и speech.wav Теперь процесс работы пойдет быстрее
UPD: голос фигово выделяет, vocalremover.org справляется лучше, но вот для выделения sfx вроде норм
Привет. Советую попробовать такую легкую прогу без сложных манипуляций. Скачал ехе установщик, установил на любой диск, запустил, закинул мп3 трек в окно проги и ждешь, пока пройдет рендеринг, после нажимаешь на него, чтобы открылась папка назначения и видишь 5 дорожек: bas, drums, instrumental, others, vocals.
Скажу так. Вокал из песни например, из большинства, которых я тестировал, вытаскивает на отлично, можно подумать что у тебя на руках оригинальная студийная дорожка голоса. Ударные и другие эффектные звуки вытаскивает тоже хорошо.
Прога развивается и лежит в открытом доступе на гитхабе. https://github.com/stemrollerapp/stemroller/releases/download/2.0.0/stemroller-2.0.0-win-cuda.exe
[Профиль]  [ЛС] 

98gurkao

Стаж: 15 лет 6 месяцев

Сообщений: 2144

98gurkao · 31-Мар-23 13:31 (спустя 24 дня)

На трекере выложен Ultimate Vocal Remover основанный на нейро-моделях, он использует все топовые на данный момент модели изоляции аудио. Программа широко опробована, накопилось довольно большое обсуждение, многие пользуются ею постоянно. Существует рейтинг качества разделения источников, на данный момент входящие в неё модели и настройки никто не поборол.
Как правило все текущие нейросети с машинным обучением, которые можно найти в сети в форме онлайн-приложений или отдельных программ, использут модели, которые опубликованы в свободном доступе на гитхабе. Этих моделей очень небольшое ограниченное число, намного меньшее, чем количество расплодившихся программ и сервисов. А на гитхабе у всех этих систем есть полное пошаговое руководство по установке.
[Профиль]  [ЛС] 

Kesovord

Стаж: 1 год 7 месяцев

Сообщений: 25

Kesovord · 18-Июл-24 01:41 (спустя 1 год 3 месяца, ред. 18-Июл-24 01:41)

А есть на Рутрекере софт, по качеству не хуже rask.ai, SoniTranslate, https://rutr.life/forum/viewtopic.php?t=6501380 , чтобы обучать, загружать чужие голоса, озвучивать игры голосами из Симпсонов или Футурамы. Озвучивать mp4 видео на RUS из ENG. Здесь довольно неплохо нейросетью в видео подменены 2 голоса https://github.com/KoljaB/TurnVoice
Оригинальное видео: https://www.youtube.com/watch?v=O3tGImqhrMo&t=223s Но мне нужно не ENG на ENG , а ENG на RUS менять голос в видео-роликах, чтобы голос правильно ударения произносил. Скиньте ссылку, если есть что-то без API-key подходящее
[Профиль]  [ЛС] 
 
Ответить
Loading...
Error