Deezer отвори изходния код на Spleeter система за разделяне на музиката и гласа

по-славно

Доставчикът на стрийминг музика Deezer, освободен новината, че наскоро реши да отвори изходния код за пилотен проект „Spleeter“ който се развива като система за машинно обучение за отделяне на звукови източници на сложни звукови композиции. Самата програма ви позволява да премахнете гласовете от композицията и да оставите само музикалния съпровод, да манипулирате звука на отделни инструменти или да пуснете музиката и да оставите гласа да се припокрива с друга звукова линия, да създавате миксове, караоке или транскрипция.

В този пилотен проект "Spleeter", предлагат вече обучени модели за изтегляне и за разделяне на гласовете акустичен съпровод, както и да ги разделя на 4 и 5 потока, включително вокали, барабани, бас, пиано и останалата част от звука. Spleeter може да се използва като библиотека на Python или като самостоятелна помощна програма за команден ред.

Когато се разделя на 2 и 4 потока, Spleeter осигурява много висока производителностнапр. когато използвате GPU, разделете аудио файл на 4 потока отнема 100 пъти по-малко време от продължителността на оригиналния състав.

Под капака Spleeter е доста сложен и проектиран двигател, но ние работихме усилено, за да го направим наистина лесен за използване. Реално разделяне може да се постигне с един команден ред и той трябва да работи на вашия лаптоп, независимо от вашата операционна система. За по-напреднали потребители има клас на API на Python, наречен Separator, който можете да манипулирате директно в обичайния си конвейер.

В система с графичен процесор NVIDIA GeForce GTX 1080 и 6134-ядрен процесор Intel Xeon Gold 32 процесорът за събиране на тестове musDB, продължил три часа и 27 минути, беше завършен за 90 секунди.

От предимствата предлага се от Spleeter, в сравнение с други разработки в областта на разделянето на звука, като отворения проект Open-Unmix, споменава се използването на по-добре изградени модели въз основа на обширна колекция от звукови файлове.

Ето защо решението на Deezer да пусне кода на Spleeter, защото в публикацията за него той коментира:

Защо да стартираме Spleeter?

Кратък отговор: използваме го за нашето изследване и смятаме, че и други биха искали.

Работим по разделяне на източници от дълго време (и вече имахме публикация в ICASSP 2019). Сравнихме Spleeter с Open-Unmix, друг модел с отворен код, наскоро пуснат от изследователски екип на Inria, и съобщихме за малко по-добри резултати с по-висока скорост (имайте предвид, че наборът от данни за обучение не е същият).

Не на последно място, обучението на този тип модели отнема много време и енергия. Правейки го веднъж и споделяйки резултата, ние се надяваме да спестим на някои проблеми и ресурси.

Поради ограничения на авторските права, изследователи на машинното обучение имат ограничен достъп до колекции от музикални файлове сравнително оскъдни модели за публичен достъп, докато за моделите Spleeter те са изградени с помощта на данни от обширния музикален каталог на Deezer.

В сравнение с отворени инструменти като unmix, Spleeter изпълнява приблизително 35% по-бързо в бенчмарковете на процесора, той поддържа MP3 файлове и генерира много по-добри резултати (при разпределението на гласовете в Open-Undo смесва следи от някои инструменти, които вероятно се дължат на факта, че моделите Open-Unmix са обучени в колекции от само 150 песни).

Кодът на проекта се предлага под формата на библиотека на Python базиран на Tensorflow, с предварително обучени модели за разделяне на трансмисии 2, 4 и 5 и се разпространява под лиценза MIT. В най-простия случай се създават два, четири или пет файла с вокали и съпровождащи компоненти (vocals.wav, drums.wav, bass.wav, piano.wav, other.wav) въз основа на изходния файл.

Ако искате да научите повече за този проект, можете да се консултирате следната връзка или можете да проверите неговия изходен код в тази връзка.

По-сладък ще бъдат представени и демонстрирани на живо на конференцията ISMIR 2019 в Делфт.


Оставете вашия коментар

Вашият имейл адрес няма да бъде публикуван. Задължителните полета са отбелязани с *

*

*

  1. Отговорен за данните: Мигел Анхел Гатон
  2. Предназначение на данните: Контрол на СПАМ, управление на коментари.
  3. Легитимация: Вашето съгласие
  4. Съобщаване на данните: Данните няма да бъдат съобщени на трети страни, освен по законово задължение.
  5. Съхранение на данни: База данни, хоствана от Occentus Networks (ЕС)
  6. Права: По всяко време можете да ограничите, възстановите и изтриете информацията си.