A Deezer megnyitotta a Spleeter forráskódját, a zene és a hang elválasztására szolgáló rendszert

A streaming zenei szolgáltató Deezer, szabadon engedve a hír, hogy nemrég úgy döntött, hogy megnyitja a "Spleeter" kísérleti projekt forráskódját hogy úgy alakul gépi tanulási rendszer a hangforrások elkülönítésére összetett hangkompozíciók. Maga a program lehetővé teszi, hogy eltávolítsa a hangokat a kompozícióból, és csak a zenei kíséretet hagyja meg, manipulálja az egyes hangszerek hangját, vagy dobja el a zenét, és hagyja, hogy a hang átfedjen egy másik hangvonalon, keverékeket hozzon létre, karaoke-t vagy átírást.

Ebben a "Spleeter" kísérleti projektben kínáljon már betanított modelleket a hangok letöltésére és szétválasztására akusztikus kíséret, valamint felosztani őket 4 és 5 adatfolyamra, beleértve az énekeket, dobokat, basszust, zongorát és a többi hangot. A Spleeter használható Python könyvtárként vagy önálló parancssori segédprogramként.

Ha 2 és 4 folyamra osztjuk, A Spleeter nagyon nagy teljesítményt nyújtpl. a GPU használatakor ossza fel az audiofájlokat 4 adatfolyamra 100-szor kevesebb időt vesz igénybe, mint az eredeti kompozíció időtartama.

A motorháztető alatt a Spleeter meglehetősen összetett és megtervezett motor, de keményen dolgoztunk azon, hogy valóban könnyen használható legyen. A tényleges szétválasztás egyetlen parancssorral érhető el, és a laptopon kell működnie, függetlenül az operációs rendszertől. Haladóbb felhasználók számára van egy Python API osztály, az úgynevezett Separator, amelyet közvetlenül a szokásos folyamatban kezelhet.

NVIDIA GeForce GTX 1080 GPU-val és 6134 magos Intel Xeon Gold 32 CPU-val rendelkező rendszeren a musDB benchmark gyűjtemény feldolgozása, amely három órán és 27 percen át tartott, 90 másodperc alatt befejeződött.

Az előnyök közül a Spleeter által kínált egyéb, a hangelválasztás területén végzett fejlesztésekkel, például az Open-Unmix nyílt projekttel, a jobban felépített modellek használatát említik kiterjedt hangfájl-gyűjtemény alapján.

Ezért döntött Deezer hogy kiadja a Spleeter kódot, mert az erről szóló bejegyzésben megjegyzi:

Miért kell elindítani a Spleetert?

Rövid válasz: felhasználjuk kutatásainkhoz, és úgy gondoljuk, hogy mások is szeretnék.

Hosszú ideje dolgozunk a forrás szétválasztásán (és már volt posztunk az ICASSP 2019-ben). Összehasonlítottuk a Spleeter-t az Open-Unmix-szel, egy másik nyílt forráskódú modellel, amelyet nemrégiben adott ki egy Inria kutatócsoport, és valamivel jobb teljesítményről számoltunk be nagyobb sebességgel (vegye figyelembe, hogy az edzésadatkészlet nem ugyanaz).

Végül, de nem utolsósorban az ilyen típusú modellek kiképzése sok időt és energiát igényel. Ha egyszer megtesszük és megosztjuk az eredményt, reméljük, hogy másoknak megspórolhatunk némi gondot és forrást.

A szerzői jogi korlátozások miatt, gépi tanulás kutatói korlátozott hozzáféréssel rendelkeznek a zenefájlok gyűjteményeihez meglehetősen szűkös nyilvános hozzáférési modellek, míg a Spleeter modellek esetében a Deezer kiterjedt zenei katalógusának adatai alapján készültek.

Összehasonlítva az olyan nyitott eszközökkel, mint az unmix, A Spleeter körülbelül 35% -kal gyorsabban teljesít a CPU benchmarkokban, támogatja az MP3 fájlokat, és sokkal jobb eredményeket generál (az Open-Undo szavazatok elosztása során egyes eszközök nyomai keverednek, amelyek valószínűleg annak tudhatók be, hogy az Open-Unmix modelleket csak 150 sávos gyűjteményekben képzik ki).

A projekt kódja Python könyvtár formájában érkezik a Tensorflow alapján, előre kiképzett modellekkel a 2, 4 és 5 átviteli elválasztáshoz és terjesztése az MIT licenc alatt történik. A legegyszerűbb esetben két, négy vagy öt fájl jön létre vokál és kísérő komponensekkel (vokál.wav, dob.wav, basszus.wav, zongora.wav, egyéb.wav) a forrásfájl alapján.

Ha többet szeretne tudni erről a projektről, konzultálhat a következő link vagy ellenőrizheti a forráskódját ebben a linkben.

Spleeter élőben bemutatják és bemutatják az ISMIR 2019 konferencián Delftben.

Ubunlog

Deezer megnyitotta a Spleeter forráskódját, a zene és a hang elválasztására szolgáló rendszert

Hagyja megjegyzését Mégsem válaszát