Deezer открыл исходный код Spleeter системы для разделения музыки и голоса

сплитер

Провайдер потоковой музыки Deezer, выпущен новости, которые недавно решил открыть исходный код пилотного проекта "Spleeter" что развивается как система машинного обучения для разделения источников звука сложных звуковых композиций. Сама программа позволяет удалить голоса из композиции и оставить только музыкальное сопровождение, управлять звучанием отдельных инструментов или отбрасывать музыку и позволять голосу накладываться на другую звуковую линию, создавать миксы, караоке или транскрипцию.

В этом пилотном проекте "Spleeter" Предлагаем уже обученные модели скачать и разделить голоса акустическое сопровождение, а также разделить их на 4 и 5 потоков, включая вокал, ударные, бас, фортепиано и остальную часть звука. Spleeter можно использовать как библиотеку Python или как отдельную утилиту командной строки.

При разделении на 2 и 4 потока, Spleeter обеспечивает очень высокую производительностьнапример, при использовании графического процессора разделите аудиофайл на 4 потока занимает в 100 раз меньше времени, чем продолжительность исходной композиции.

Под капотом Spleeter - довольно сложный и спроектированный движок, но мы много работали, чтобы сделать его действительно простым в использовании. Фактическое разделение может быть достигнуто с помощью одной командной строки, и оно должно работать на вашем ноутбуке, независимо от вашей операционной системы. Для более продвинутых пользователей существует класс Python API под названием Separator, которым вы можете манипулировать непосредственно в своем обычном конвейере.

В системе с графическим процессором NVIDIA GeForce GTX 1080 и 6134-ядерным процессором Intel Xeon Gold 32 обработка тестовой коллекции musDB, которая длилась три часа 27 минут, была завершена за 90 секунд.

Из преимуществ предложенный Spleeter, по сравнению с другими разработками в области разделения звука, такими как открытый проект Open-Unmix, упоминается использование более совершенных моделей на основе обширной коллекции звуковых файлов.

Вот почему решение Deezer чтобы выпустить код Spleeter, потому что в сообщении об этом он комментирует:

Зачем запускать Spleeter?

Короткий ответ: мы используем его для наших исследований и думаем, что другие тоже могут захотеть.

Мы давно работаем над разделением источников (и у нас уже был пост в ICASSP 2019). Мы сравнили Spleeter с Open-Unmix, другой моделью с открытым исходным кодом, недавно выпущенной исследовательской группой Inria, и сообщили о несколько лучших характеристиках при более высокой скорости (обратите внимание, что набор обучающих данных отличается).

И последнее, но не менее важное: обучение таких моделей требует много времени и энергии. Сделав это один раз и поделившись результатом, мы надеемся избавить других от проблем и сэкономить ресурсы.

Из-за ограничений авторского права, исследователи машинного обучения иметь ограниченный доступ к коллекциям музыкальных файлов довольно скудные модели открытого доступа, тогда как для моделей Spleeter они были построены с использованием данных из обширного музыкального каталога Deezer.

По сравнению с открытыми инструментами, такими как unmix, Spleeter работает примерно на 35% быстрее в тестах CPU., он поддерживает файлы MP3 и дает гораздо лучшие результаты (при распределении голосов в Open-Undo он смешивает следы некоторых инструментов, которые, вероятно, связаны с тем, что модели Open-Unmix обучаются в коллекциях всего из 150 треков).

Код проекта представлен в виде библиотеки Python. на основе Tensorflow, с предварительно обученными моделями для разделения 2, 4 и 5 передач и распространяется по лицензии MIT. В простейшем случае на основе исходного файла создаются два, четыре или пять файлов с вокалом и компонентами аккомпанемента (voice.wav, drums.wav, bass.wav, piano.wav, other.wav).

Если вы хотите узнать больше об этом проекте, вы можете проконсультироваться следующая ссылка или вы можете проверить его исходный код по этой ссылке.

Сплитер будет представлена ​​и продемонстрирована вживую на конференции ISMIR 2019 в Делфте.


Будьте первым, чтобы комментировать

Оставьте свой комментарий

Ваш электронный адрес не будет опубликован. Обязательные для заполнения поля помечены *

*

*

  1. Ответственный за данные: Мигель Анхель Гатон
  2. Назначение данных: контроль спама, управление комментариями.
  3. Легитимация: ваше согласие
  4. Передача данных: данные не будут переданы третьим лицам, кроме как по закону.
  5. Хранение данных: база данных, размещенная в Occentus Networks (ЕС)
  6. Права: в любое время вы можете ограничить, восстановить и удалить свою информацию.