Deezer åbnede kildekoden til Spleeter, et system til at adskille musik og stemme

Streaming-musikudbyderen Deezer, frigivet nyheden der for nylig besluttede at åbne kildekoden til et pilotprojekt "Spleeter" der udvikler sig som et maskinlæringssystem til at adskille lydkilder af komplekse lydkompositioner. Selve programmet giver dig mulighed for at fjerne stemmerne fra kompositionen og kun efterlade den musikalske akkompagnement, manipulere lyden af individuelle instrumenter eller droppe musikken og lade stemmen overlappe på en anden lydlinje, oprette mix, karaoke eller transkription.

I dette "Spleeter" pilotprojekt tilbyde allerede uddannede modeller til download og til at adskille stemmerne akustisk akkompagnement, samt at opdele dem i 4 og 5 streams, inklusive vokal, trommer, basser, klaver og resten af lyden. Spleeter kan bruges som et Python-bibliotek eller som et enkeltstående kommandolinjeprogram.

Når man deler sig i 2 og 4 streams, Spleeter giver meget høj ydeevnefx når du bruger GPU'en, skal du dele en lydfil i 4 streams tager 100 gange kortere tid end varigheden af den originale komposition.

Under emhætten er Spleeter en ret kompleks og designet motor, men vi har arbejdet hårdt for at gøre den virkelig nem at bruge. Faktisk adskillelse kan opnås med en enkelt kommandolinje, og den skal fungere på din bærbare computer, uanset dit operativsystem. For mere avancerede brugere er der en Python API-klasse kaldet Separator, som du kan manipulere direkte i din sædvanlige pipeline.

På et system med en NVIDIA GeForce GTX 1080 GPU og en 6134-kerne Intel Xeon Gold 32 CPU blev musDB-benchmark-indsamlingsbehandlingen, der varede tre timer og 27 minutter, afsluttet på 90 sekunder.

Af fordelene tilbudt af Spleeter sammenlignet med andre udviklinger inden for lydseparation, såsom det åbne Open-Unmix-projekt, brugen af bedre byggede modeller nævnes baseret på en omfattende samling af lydfiler.

Her er hvorfor Deezers beslutning at frigive Spleeter-koden, fordi han i indlægget om det kommenterer:

Hvorfor starte Spleeter?

Kort svar: vi bruger det til vores forskning, og vi tror, at andre måske også vil.

Vi har arbejdet med kildeseparation i lang tid (og vi havde allerede et indlæg i ICASSP 2019). Vi har sammenlignet Spleeter med Open-Unmix, en anden open source-model, der for nylig blev udgivet af et Inria-forskerteam, og rapporterede lidt bedre præstationer med højere hastighed (bemærk, at træningsdatasættet ikke er det samme).

Sidst men ikke mindst tager træning af disse typer modeller meget tid og energi. Ved at gøre det en gang og dele resultatet håber vi at spare andre for nogle problemer og ressourcer.

På grund af ophavsretsbegrænsninger, maskinlæringsforskere har begrænset adgang til samlinger af musikfiler ret beskedne offentlige adgangsmodeller, mens de for Spleeter-modellerne blev bygget ved hjælp af data fra Deezers omfattende musikkatalog.

Sammenlignet med åbne værktøjer som unmix, Spleeter presterer ca. 35% hurtigere i CPU-benchmarks, det understøtter MP3-filer og genererer meget bedre resultater (i fordelingen af stemmer i Open-Undo blander det spor af nogle værktøjer, der sandsynligvis skyldes, at Open-Unmix-modellerne er trænet i samlinger på kun 150 numre).

Projektkoden kommer i form af et Python-bibliotek baseret på Tensorflow med foruddannede modeller til 2, 4 og 5 transmission adskillelse og distribueres under MIT-licensen. I det enkleste tilfælde oprettes to, fire eller fem filer med vokal og akkompagnementskomponenter (vocals.wav, drums.wav, bass.wav, piano.wav, other.wav) baseret på kildefilen.

Hvis du vil vide mere om dette projekt, kan du høre følgende link eller du kan kontrollere dens kildekode i dette link.

Spleeter vil blive præsenteret og demonstreret live på ISMIR 2019 konferencen i Delft.

Ubunlog

Deezer åbnede kildekoden for Spleeter et system til at adskille musik og stemme

Efterlad din kommentar Annuller svar