Deezer öppnade källkoden till Spleeter, ett system för att separera musik och röst

Streamingmusikleverantören Deezer, släppt nyheterna som nyligen beslutade att öppna källkoden för ett pilotprojekt "Spleeter" som utvecklas som ett maskininlärningssystem för att separera ljudkällor av komplexa ljudkompositioner. Själva programmet låter dig ta bort rösterna från kompositionen och bara lämna musikaliskt ackompanjemang, manipulera ljudet från enskilda instrument eller släppa musiken och låta rösten överlappa på en annan ljudlinje, skapa mixer, karaoke eller transkription.

I detta pilotprojekt "Spleeter", erbjuda redan utbildade modeller att ladda ner och separera rösterna akustiskt ackompanjemang, samt att dela upp dem i 4 och 5 strömmar, inklusive sång, trummor, bas, piano och resten av ljudet. Spleeter kan användas som ett Python-bibliotek eller som ett fristående kommandoradsverktyg.

När man delar upp i två och fyra strömmar, Spleeter ger mycket hög prestandat.ex. när du använder GPU: n, dela en ljudfil i fyra strömmar tar 100 gånger kortare tid än originalkompositionens varaktighet.

Under huven är Spleeter en ganska komplex och designad motor, men vi har jobbat hårt för att göra den riktigt enkel att använda. Faktisk separation kan uppnås med en enda kommandorad, och den ska fungera på din bärbara dator, oavsett ditt operativsystem. För mer avancerade användare finns det en Python API-klass som heter Separator som du kan manipulera direkt i din vanliga pipeline.

På ett system med en NVIDIA GeForce GTX 1080 GPU och en 6134-kärnig Intel Xeon Gold 32-processor slutfördes bearbetningen av musDB-referenssamlingen, som varade tre timmar och 27 minuter, på 90 sekunder.

Av fördelarna som erbjuds av Spleeter, jämfört med annan utveckling inom ljudseparation, såsom det öppna Open-Unmix-projektet, användningen av bättre byggda modeller nämns baserad på en omfattande samling ljudfiler.

Här är varför Deezers beslut att släppa Spleeter-koden, för i inlägget om det kommenterar han:

Varför starta Spleeter?

Kort svar: vi använder det för vår forskning och vi tror att andra kanske också vill.

Vi har arbetat med källseparation under lång tid (och vi hade redan ett inlägg i ICASSP 2019). Vi har jämfört Spleeter med Open-Unmix, en annan öppen källkodsmodell som nyligen släpptes av ett Inria-forskargrupp, och rapporterade något bättre prestanda med högre hastighet (notera att träningsdatasetet inte är detsamma).

Sist men inte minst tar det mycket tid och energi att träna dessa typer av modeller. Genom att göra det en gång och dela resultatet hoppas vi kunna spara andra lite problem och resurser.

På grund av upphovsrättsliga begränsningar, maskininlärningsforskare har begränsad tillgång till samlingar av musikfiler ganska magra offentliga åtkomstmodeller, medan de för Spleeter-modellerna byggdes med hjälp av data från Deezers omfattande musikkatalog.

Jämfört med öppna verktyg som unmix, Spleeter presterar cirka 35% snabbare i CPU-riktmärken, stöder den MP3-filer och genererar mycket bättre resultat (i fördelningen av röster i Open-Undo blandar den spår av några verktyg som troligen beror på att Open-Unmix-modellerna är utbildade i samlingar på endast 150 spår).

Projektkoden kommer i form av ett Python-bibliotek baserat på Tensorflow, med förutbildade modeller för 2, 4 och 5 överföringsseparation och distribueras under MIT-licensen. I det enklaste fallet skapas två, fyra eller fem filer med sång och ackompanjemangskomponenter (vocals.wav, drums.wav, bass.wav, piano.wav, other.wav) baserat på källfilen.

Om du vill veta mer om detta projekt kan du konsultera följande länk eller så kan du kontrollera dess källkod i den här länken.

Spleeter kommer att presenteras och demonstreras live på ISMIR 2019-konferensen i Delft.

Ubunlog

Deezer öppnade källkoden för Spleeter, ett system för att separera musik och röst

Lämna din kommentar Avbryt svar