Deezer åpnet kildekoden til Spleeter, et system for å skille musikk og stemme

spleeter

Streamingmusikkleverandøren Deezer, løslatt nyheten som nylig besluttet å åpne kildekoden for et pilotprosjekt "Spleeter" som utvikler seg som et maskinlæringssystem for å skille lydkilder av komplekse lydkomposisjoner. Selve programmet lar deg fjerne stemmene fra komposisjonen og bare legge igjen musikalsk akkompagnement, manipulere lyden til individuelle instrumenter eller slippe musikken og la stemmen overlappe på en annen lydlinje, lage mikser, karaoke eller transkripsjon.

I dette pilotprosjektet "Spleeter", tilby allerede trente modeller for å laste ned og å skille stemmene akustisk akkompagnement, samt å dele dem inn i 4 og 5 strømmer, inkludert vokal, trommer, basser, piano og resten av lyden. Spleeter kan brukes som et Python-bibliotek eller som et frittstående kommandolinjeprogram.

Når du deler inn i 2 og 4 strømmer, Spleeter gir veldig høy ytelsef.eks. når du bruker GPU, del en lydfil i fire strømmer tar 100 ganger kortere tid enn varigheten til den originale komposisjonen.

Under panseret er Spleeter en ganske kompleks og designet motor, men vi har jobbet hardt for å gjøre den veldig enkel å bruke. Faktisk separasjon kan oppnås med en enkelt kommandolinje, og den skal fungere på den bærbare datamaskinen din, uavhengig av operativsystem. For mer avanserte brukere er det en Python API-klasse kalt Separator som du kan manipulere direkte i din vanlige pipeline.

På et system med en NVIDIA GeForce GTX 1080 GPU og en 6134-kjerne Intel Xeon Gold 32-prosessor ble musDB-referansebehandlingen, som varte i tre timer og 27 minutter, fullført på 90 sekunder.

Av fordelene tilbudt av Spleeter, sammenlignet med annen utvikling innen lydseparasjon, som det åpne Open-Unmix-prosjektet, bruken av bedre bygde modeller er nevnt basert på en omfattende samling lydfiler.

Her er hvorfor Deezers beslutning å frigjøre Spleeter-koden, for i innlegget om det kommenterer han:

Hvorfor starte Spleeter?

Kort svar: vi bruker det til vår forskning, og vi tror andre kanskje også vil.

Vi har jobbet med kildeseparasjon i lang tid (og vi hadde allerede et innlegg i ICASSP 2019). Vi har sammenlignet Spleeter med Open-Unmix, en annen åpen kildekodemodell som nylig ble utgitt av et Inria-forskerteam, og rapporterte litt bedre ytelse med høyere hastighet (merk at treningsdatasettet ikke er det samme).

Sist men ikke minst tar det mye tid og energi å trene denne typen modeller. Ved å gjøre det en gang og dele resultatet håper vi å spare andre for problemer og ressurser.

På grunn av copyright-begrensninger, maskinlæringsforskere har begrenset tilgang til samlinger av musikkfiler ganske sparsomme offentlige tilgangsmodeller, mens de for Spleeter-modellene ble bygget ved hjelp av data fra Deezers omfattende musikkatalog.

Sammenlignet med åpne verktøy som unmix, Spleeter utfører omtrent 35% raskere i CPU-referanser, støtter den MP3-filer og genererer mye bedre resultater (i fordelingen av stemmer i Open-Undo blander det spor av noen verktøy som sannsynligvis skyldes at Open-Unmix-modellene er trent i samlinger på bare 150 spor).

Prosjektkoden kommer i form av et Python-bibliotek basert på Tensorflow, med pre-trente modeller for separasjon av 2, 4 og 5 transmisjon og distribueres under MIT-lisensen. I det enkleste tilfellet opprettes to, fire eller fem filer med vokal og akkompagnementskomponenter (vocals.wav, drums.wav, bass.wav, piano.wav, other.wav) basert på kildefilen.

Hvis du vil vite mer om dette prosjektet, kan du konsultere følgende lenke eller du kan sjekke kildekoden i denne lenken.

Spleeter vil bli presentert og demonstrert live på ISMIR 2019-konferansen i Delft.


Legg igjen kommentaren

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *

*

*

  1. Ansvarlig for dataene: Miguel Ángel Gatón
  2. Formålet med dataene: Kontroller SPAM, kommentaradministrasjon.
  3. Legitimering: Ditt samtykke
  4. Kommunikasjon av dataene: Dataene vil ikke bli kommunisert til tredjeparter bortsett fra ved juridisk forpliktelse.
  5. Datalagring: Database vert for Occentus Networks (EU)
  6. Rettigheter: Når som helst kan du begrense, gjenopprette og slette informasjonen din.