Deezer a ouvert le code source de Spleeter, un système pour séparer la musique et la voix

spéléologue

Le fournisseur de musique en streaming Deezer, publié les nouvelles qui récemment a décidé d'ouvrir le code source d'un projet pilote "Spleeter" qui se développe comme un système d'apprentissage automatique pour séparer les sources sonores de compositions sonores complexes. Le programme lui-même vous permet de supprimer les voix de la composition et de ne laisser que l'accompagnement musical, de manipuler le son d'instruments individuels ou de laisser tomber la musique et de laisser la voix se chevaucher sur une autre ligne sonore, de créer des mixages, du karaoké ou de la transcription.

Dans ce projet pilote "Spleeter", proposer des modèles déjà formés pour télécharger et séparer les voix accompagnement acoustique, ainsi que de les diviser en 4 et 5 flux, y compris le chant, la batterie, la basse, le piano et le reste du son. Spleeter peut être utilisé comme bibliothèque Python ou comme utilitaire de ligne de commande autonome.

Lors de la division en 2 et 4 flux, Spleeter offre des performances très élevéespar exemple, lors de l'utilisation du GPU, divisez un fichier audio en 4 flux prend 100 fois moins de temps que la durée de la composition originale.

Sous le capot, Spleeter est un moteur assez complexe et conçu, mais nous avons travaillé dur pour le rendre vraiment facile à utiliser. La séparation réelle peut être obtenue avec une seule ligne de commande et devrait fonctionner sur votre ordinateur portable, quel que soit votre système d'exploitation. Pour les utilisateurs plus avancés, il existe une classe d'API Python appelée Separator que vous pouvez manipuler directement dans votre pipeline habituel.

Sur un système doté d'un GPU NVIDIA GeForce GTX 1080 et d'un processeur Intel Xeon Gold 6134 à 32 cœurs, le traitement de la collecte de référence musDB, qui a duré trois heures et 27 minutes, s'est terminé en 90 secondes.

Des avantages proposé par Spleeter, par rapport à d'autres développements dans le domaine de la séparation du son, comme le projet ouvert Open-Unmix, l'utilisation de modèles mieux construits est mentionnée basé sur une vaste collection de fichiers audio.

Voici pourquoi la décision de Deezer pour publier le code Spleeter, car dans le post à ce sujet, il commente:

Pourquoi lancer Spleeter?

Réponse courte: nous l'avons utilisé pour nos recherches et nous pensons que d'autres voudront peut-être le faire aussi.

Nous travaillons depuis longtemps sur la séparation des sources (et nous avions déjà un poste dans ICASSP 2019). Nous avons comparé Spleeter à Open-Unmix, un autre modèle open source récemment publié par une équipe de recherche Inria, et rapporté des performances légèrement meilleures avec une vitesse plus élevée (notez que le jeu de données d'entraînement n'est pas le même).

Enfin, la formation de ces types de modèles prend beaucoup de temps et d'énergie. En le faisant une fois et en partageant le résultat, nous espérons éviter aux autres des problèmes et des ressources.

En raison de restrictions de droits d'auteur, chercheurs en apprentissage automatique ont un accès limité aux collections de fichiers musicaux modèles d'accès public plutôt maigres, tandis que pour les modèles Spleeter, ils ont été construits à l'aide des données du vaste catalogue musical de Deezer.

En comparaison avec des outils ouverts comme unmix, Spleeter est environ 35% plus rapide dans les benchmarks CPU, il prend en charge les fichiers MP3 et génère de bien meilleurs résultats (dans l'attribution des votes dans l'Open-Undo, il mélange des traces de certains outils qui sont probablement dus au fait que les modèles Open-Unmix sont formés dans des collections de seulement 150 pistes).

Le code du projet se présente sous la forme d'une bibliothèque Python basé sur Tensorflow, avec des modèles pré-entraînés pour la séparation de transmission 2, 4 et 5 et est distribué sous la licence MIT. Dans le cas le plus simple, deux, quatre ou cinq fichiers avec des composants vocaux et d'accompagnement (vocals.wav, drums.wav, bass.wav, piano.wav, other.wav) sont créés à partir du fichier source.

Si vous souhaitez en savoir plus sur ce projet, vous pouvez consulter le lien suivant ou vous pouvez vérifier son code source dans ce lien

Spléter sera présenté et démontré en direct lors de la conférence ISMIR 2019 à Delft.


Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont marqués avec *

*

*

  1. Responsable des données: Miguel Ángel Gatón
  2. Finalité des données: Contrôle du SPAM, gestion des commentaires.
  3. Légitimation: votre consentement
  4. Communication des données: Les données ne seront pas communiquées à des tiers sauf obligation légale.
  5. Stockage des données: base de données hébergée par Occentus Networks (EU)
  6. Droits: à tout moment, vous pouvez limiter, récupérer et supprimer vos informations.