Deezer va obrir el codi font de Spleeter un sistema per separar música i veu

El proveïdor de música streaming Deezer, va donar a conèixer la notícia que fa poc decidir obrir el codi font per a un projecte pilot de «Spleeter» que es desenvolupa com un sistema d'aprenentatge automàtic per separar les fonts de so de les composicions de so complexes. El programa en si permet eliminar les veus de la composició i deixar només l'acompanyament musical, manipular el so d'instruments individuals o deixar anar la música i deixar que la veu es superposi en una altra línia de so, creu mescles, karaoke o transcripció.

En aquest projecte pilot «Spleeter» es ofereixen models ja entrenats per descarregar i per separar les veus de l'acompanyament acústic, així com per dividir-les en 4 i 5 transmissions, incloses veus, bateria, baixos, piano i la resta de el so. Spleeter es pot usar com una biblioteca de Python o com una utilitat de línia d'ordres independent.

A l'dividir en 2 i 4 transmissions, Spleeter proporciona un rendiment molt alt, Per exemple, a l'usar la GPU, dividir un arxiu d'àudio en 4 transmissions pren 100 vegades menys temps que la durada de la composició original.

A sota de l'capó, Spleeter és un motor bastant complex i dissenyat, però hem treballat dur perquè sigui realment fàcil d'utilitzar. La separació real es pot aconseguir amb una sola línia de comandament, i hauria de funcionar en el seu ordinador portàtil, independentment del seu sistema operatiu. Per a usuaris més avançats, hi ha una classe API de Python anomenada Separatorque pot manipular directament en la seva canalització habitual.

En un sistema amb una GPU NVIDIA GeForce GTX 1080 i una CPU Intel Xeon Gold 6134 de 32 nuclis, el processament de la col·lecció de proves musDB, que va durar tres hores i 27 minuts, es va completar en 90 segons.

De les avantatges que ofereix Spleeter, en comparació amb altres desenvolupaments en el camp de la separació de so, com el projecte obert Open-Unmix, s'esmenta l'ús de millors models construïts sobre la base d'una extensa col·lecció d'arxius de so.

He aqui el per que de la decisió de Deezer d'alliberar el codi de Spleeter, ja que en la publicació sobre això, comenta:

Per què llançar Spleeter?

Resposta curta: el fem servir per a la nostra investigació i creiem que altres podrien voler també.

Hem estat treballant en la separació de fonts durant molt de temps (i ja teníem una publicació en ICASSP 2019). Hem comparat Spleeter amb Open-Unmix, un altre model de codi obert llançat recentment per un equip d'investigació de Inria, i reportem rendiments lleugerament millors amb major velocitat (tingui en compte que el conjunt de dades d'entrenament no és el mateix).

Finalment, però no menys important, entrenar aquest tipus de models requereix molt de temps i energia. A el fer-ho un cop i compartir el resultat, esperem estalviar-li a altres alguns problemes i recursos.

A causa de les restriccions de drets d'autor, Els investigadors d'aprenentatge automàtic tenen accés limitat a col·leccions d'arxius de música d'accés públic bastant minses, mentre que per als models Spleeter es van construir utilitzant dades de l'extens catàleg de música de Deezer.

Per comparació amb les eines obertes com unmix, Spleeter realitza en aproximadament un 35% més ràpid en les proves de la CPU, Suporta arxius MP3 i genera molt millors resultats (en l'assignació de vots en l'Open-Desfer barreja rastres d'algunes eines que són probablement causa de el fet que els models Open-Unmix estan entrenats en col·leccions de 150 pistes).

El codi de el projecte ve en forma d'una biblioteca de Python basada en Tensorflow, amb models pre-entrenats per a separació de 2, 4 i 5 transmissions i es distribueix sota la llicència MIT. En el cas més simple, es creen dos, quatre o cinc arxius amb veu i components de l'acompanyament (vocals.wav, drums.wav, bass.wav, piano.wav, other.wav) sobre la base de l'arxiu font.

Si vols conèixer més a l'respecte sobre aquest projecte, pots consultar el següent enllaç o pots consultar el seu codi font en aquest enllaç.

Esplèter es presentarà i demostrarà en viu a la conferència ISMIR 2019 a Delft.

Ubunlog

Deezer va obrir el codi font de Spleeter un sistema per separar música i veu

Deixa el teu comentari Cancel lar la resposta