Binuksan ni Deezer ang source code ng Spleeter isang system upang paghiwalayin ang musika at boses

nakakatuwa

Ang streaming music provider Si Deezer, pinakawalan ang balita na kamakailan nagpasya na buksan ang source code para sa isang "Spleeter" pilot project na bubuo bilang isang sistema ng pag-aaral ng makina upang paghiwalayin ang mga mapagkukunan ng tunog ng mga kumplikadong komposisyon ng tunog. Pinapayagan ka ng mismong programa na alisin ang mga boses mula sa komposisyon at iwanan lamang ang saliw ng musikal, manipulahin ang tunog ng mga indibidwal na instrumento o i-drop ang musika at hayaang mag-overlap ang boses sa isa pang linya ng tunog, lumikha ng mga mix, karaoke o transcription.

Sa pilot project na "Spleeter" na ito, nag-aalok ng mga may kasanayang mga modelo upang mag-download at upang paghiwalayin ang mga tinig saliw sa tunog pati na rin upang hatiin ang mga ito sa 4 at 5 stream, kabilang ang mga vocal, drums, bass, piano at ang natitirang tunog. Ang Spleeter ay maaaring magamit bilang isang Python library o bilang isang standalone command line utility.

Kapag naghahati sa 2 at 4 na mga stream, Nagbibigay ang Spleeter ng napakataas na pagganaphal. kapag gumagamit ng GPU, hatiin ang isang audio file sa 4 na stream tumatagal ng 100 beses na mas mababa sa oras kaysa sa tagal ng orihinal na komposisyon.

Sa ilalim ng hood, ang Spleeter ay isang medyo kumplikado at dinisenyo na engine, ngunit nagsumikap kaming gawin itong talagang madaling gamitin. Ang aktwal na paghihiwalay ay maaaring makamit sa isang solong linya ng utos, at dapat itong gumana sa iyong laptop, anuman ang iyong operating system. Para sa higit pang mga advanced na gumagamit, mayroong isang klase ng Python API na tinatawag na Separator na maaari mong direktang magmanipula sa iyong karaniwang pipeline.

Sa isang system na may isang NVIDIA GeForce GTX 1080 GPU at isang 6134-core na Intel Xeon Gold 32 CPU, ang pagproseso ng koleksyon ng benchmark ng musDB, na tumagal ng tatlong oras at 27 minuto, ay nakumpleto sa loob ng 90 segundo.

Sa mga kalamangan inaalok ng Spleeter, kumpara sa iba pang mga pagpapaunlad sa larangan ng tunog na paghihiwalay, tulad ng bukas na proyekto ng Open-Unmix, ang paggamit ng mga mas mahusay na built na mga modelo ay nabanggit batay sa isang malawak na koleksyon ng mga file ng tunog.

Narito kung bakit ang desisyon ni Deezer upang palabasin ang Spleeter code, dahil sa post tungkol dito, siya ay nagkomento:

Bakit ilulunsad ang Spleeter?

Maikling sagot: ginagamit namin ito para sa aming pagsasaliksik at sa palagay namin ay nais din ng iba.

Matagal na kaming nagtatrabaho sa paghihiwalay ng mapagkukunan (at mayroon na kaming post sa ICASSP 2019). Inihambing namin ang Spleeter sa Open-Unmix, isa pang modelo ng bukas na mapagkukunan na pinakawalan kamakailan ng isang koponan sa pananaliksik ng Inria, at nag-ulat ng bahagyang mas mahusay na mga pagganap na may mas mataas na bilis (tandaan na ang dataset ng pagsasanay ay hindi pareho).

Huling ngunit hindi pa huli, ang pagsasanay sa mga ganitong uri ng mga modelo ay tumatagal ng maraming oras at lakas. Sa paggawa nito nang isang beses at pagbabahagi ng resulta, inaasahan naming makatipid sa iba ng ilang mga problema at mapagkukunan.

Dahil sa mga paghihigpit sa copyright, mga mananaliksik sa pag-aaral ng makina may limitadong pag-access sa mga koleksyon ng mga file ng musika medyo maliit na mga modelo sa pag-access sa publiko, habang para sa mga modelo ng Spleeter itinayo ang mga ito gamit ang data mula sa malawak na katalogo ng musika ni Deezer.

Sa pamamagitan ng paghahambing sa mga bukas na tool tulad ng unmix, Gumagawa ang Spleeter ng humigit-kumulang na 35% na mas mabilis sa mga benchmark ng CPU, sinusuportahan nito ang mga MP3 file at bumubuo ng mas mahusay na mga resulta (sa paglalaan ng mga boto sa Open-Undo ay naghahalo ito ng mga bakas ng ilang mga tool na marahil dahil sa ang katunayan na ang mga modelo ng Open-Unmix ay sinanay sa mga koleksyon ng 150 mga track lamang).

Ang code ng proyekto ay nagmula sa anyo ng isang library ng Python batay sa Tensorflow, na may paunang pagsasanay na mga modelo para sa paghihiwalay ng 2, 4 at 5 na paghahatid at ipinamamahagi sa ilalim ng lisensya ng MIT. Sa pinakasimpleng kaso, dalawa, apat, o limang mga file na may mga sangkap ng vocal at accompaniment (vocals.wav, drums.wav, bass.wav, piano.wav, other.wav) ay nilikha batay sa pinagmulang file.

Kung nais mong malaman ang tungkol sa proyektong ito, maaari kang kumunsulta ang sumusunod na link o maaari mong suriin ang source code nito sa link na ito

Spleeter ipapakita at maipakita nang live sa komperensiya ng ISMIR 2019 sa Delft.


Iwanan ang iyong puna

Ang iyong email address ay hindi nai-publish. Mga kinakailangang patlang ay minarkahan ng *

*

*

  1. Responsable para sa data: Miguel Ángel Gatón
  2. Layunin ng data: Kontrolin ang SPAM, pamamahala ng komento.
  3. Legitimation: Ang iyong pahintulot
  4. Komunikasyon ng data: Ang data ay hindi maiparating sa mga third party maliban sa ligal na obligasyon.
  5. Imbakan ng data: Ang database na naka-host ng Occentus Networks (EU)
  6. Mga Karapatan: Sa anumang oras maaari mong limitahan, mabawi at tanggalin ang iyong impormasyon.