Ο Deezer άνοιξε τον πηγαίο κώδικα του Spleeter ένα σύστημα για το διαχωρισμό της μουσικής και της φωνής

σπλήτερ

Ο πάροχος μουσικής συνεχούς ροής Ο Deezer, απελευθερώθηκε τα νέα που πρόσφατα αποφάσισε να ανοίξει τον πηγαίο κώδικα για ένα πιλοτικό έργο "Spleeter" που ξετυλίγεται ως ένα σύστημα μηχανικής εκμάθησης για το διαχωρισμό πηγών ήχου σύνθετων ηχητικών συνθέσεων. Το ίδιο το πρόγραμμα σας επιτρέπει να αφαιρέσετε τις φωνές από τη σύνθεση και να αφήσετε μόνο το μουσικό συνοδευτικό, να χειριστείτε τον ήχο μεμονωμένων οργάνων ή να αφήσετε τη μουσική και να αφήσετε τη φωνή να επικαλύπτει μια άλλη γραμμή ήχου, να δημιουργεί μίγματα, καραόκε ή μεταγραφή.

Σε αυτό το πιλοτικό έργο "Spleeter", Προσφέρετε ήδη εκπαιδευμένα μοντέλα για λήψη και διαχωρισμό των φωνών ακουστική συνοδεία, καθώς και να τα χωρίσετε σε ροές 4 και 5, συμπεριλαμβανομένων φωνητικών, ντραμς, μπάσων, πιάνο και του υπόλοιπου ήχου. Το Spleeter μπορεί να χρησιμοποιηθεί ως βιβλιοθήκη Python ή ως αυτόνομο βοηθητικό πρόγραμμα γραμμής εντολών.

Όταν χωρίζετε σε ροές 2 και 4, Το Spleeter παρέχει πολύ υψηλή απόδοσηπ.χ. όταν χρησιμοποιείτε το GPU, χωρίστε ένα αρχείο ήχου σε 4 ροές διαρκεί 100 φορές λιγότερο χρόνο από τη διάρκεια της αρχικής σύνθεσης.

Κάτω από την κουκούλα, το Spleeter είναι ένας αρκετά περίπλοκος και σχεδιασμένος κινητήρας, αλλά έχουμε εργαστεί σκληρά για να το κάνουμε πραγματικά εύκολο στη χρήση. Ο πραγματικός διαχωρισμός μπορεί να επιτευχθεί με μία μόνο γραμμή εντολών και θα πρέπει να λειτουργεί στον φορητό υπολογιστή σας, ανεξάρτητα από το λειτουργικό σας σύστημα. Για πιο προχωρημένους χρήστες, υπάρχει μια κλάση Python API που ονομάζεται Separator, την οποία μπορείτε να χειριστείτε απευθείας στον συνηθισμένο αγωγό σας.

Σε ένα σύστημα με GPU NVIDIA GeForce GTX 1080 και επεξεργαστή Intel Xeon Gold 6134 32 πυρήνων, η επεξεργασία συλλογής αναφοράς musDB, η οποία διήρκεσε τρεις ώρες και 27 λεπτά, ολοκληρώθηκε σε 90 δευτερόλεπτα.

Από τα πλεονεκτήματα προσφέρεται από τον Spleeter, σε σύγκριση με άλλες εξελίξεις στον τομέα του διαχωρισμού ήχου, όπως το ανοιχτό έργο Open-Unmix, αναφέρεται η χρήση καλύτερων μοντέλων βασισμένο σε μια εκτενή συλλογή αρχείων ήχου.

Να γιατί η απόφαση του Deezer για να κυκλοφορήσει ο κώδικας Spleeter, επειδή στην ανάρτηση σχετικά, σχολιάζει:

Γιατί να ξεκινήσετε το Spleeter;

Σύντομη απάντηση: το χρησιμοποιούμε για την έρευνά μας και πιστεύουμε ότι μπορεί να το θέλουν και άλλοι.

Εργαζόμαστε για διαχωρισμό πηγών για μεγάλο χρονικό διάστημα (και είχαμε ήδη μια ανάρτηση στο ICASSP 2019). Συγκρίναμε το Spleeter με το Open-Unmix, ένα άλλο μοντέλο ανοιχτού κώδικα που κυκλοφόρησε πρόσφατα από μια ερευνητική ομάδα της Inria και αναφέραμε ελαφρώς καλύτερες επιδόσεις με υψηλότερη ταχύτητα (σημειώστε ότι το σύνολο δεδομένων εκπαίδευσης δεν είναι το ίδιο).

Τέλος, η εκπαίδευση αυτών των τύπων μοντέλων απαιτεί πολύ χρόνο και ενέργεια. Κάνοντάς το μία φορά και μοιράζοντας το αποτέλεσμα, ελπίζουμε να σώσουμε τους άλλους κάποια προβλήματα και πόρους.

Λόγω περιορισμών πνευματικών δικαιωμάτων, ερευνητές μηχανικής μάθησης έχουν περιορισμένη πρόσβαση σε συλλογές αρχείων μουσικής αρκετά περιορισμένα μοντέλα δημόσιας πρόσβασης, ενώ για τα μοντέλα Spleeter κατασκευάστηκαν χρησιμοποιώντας δεδομένα από τον εκτεταμένο μουσικό κατάλογο της Deezer.

Σε σύγκριση με ανοιχτά εργαλεία όπως το unmix, Το Spleeter αποδίδει περίπου 35% ταχύτερα σε σημεία αναφοράς CPU, υποστηρίζει αρχεία MP3 και παράγει πολύ καλύτερα αποτελέσματα (στην κατανομή ψήφων στο Open-Undo συνδυάζει ίχνη ορισμένων εργαλείων που πιθανώς οφείλονται στο γεγονός ότι τα μοντέλα Open-Unmix εκπαιδεύονται σε συλλογές μόνο 150 κομματιών).

Ο κωδικός έργου έρχεται με τη μορφή βιβλιοθήκης Python βασισμένο στο Tensorflow, με προ-εκπαιδευμένα μοντέλα για διαχωρισμό μετάδοσης 2, 4 και 5 και διανέμεται με άδεια MIT. Στην απλούστερη περίπτωση, δημιουργούνται δύο, τέσσερα ή πέντε αρχεία με φωνητικά και συνοδευτικά στοιχεία (vocals.wav, drums.wav, bass.wav, piano.wav, other.wav) με βάση το αρχείο προέλευσης.

Αν θέλετε να μάθετε περισσότερα για αυτό το έργο, μπορείτε να συμβουλευτείτε τον ακόλουθο σύνδεσμο ή μπορείτε να ελέγξετε τον πηγαίο κώδικα σε αυτόν τον σύνδεσμο.

Σπλέτερ θα παρουσιαστεί και θα παρουσιαστεί ζωντανά στο συνέδριο ISMIR 2019 στο Ντελφτ.


Αφήστε το σχόλιό σας

Η διεύθυνση email σας δεν θα δημοσιευθεί. Τα υποχρεωτικά πεδία σημειώνονται με *

*

*

  1. Υπεύθυνος για τα δεδομένα: Miguel Ángel Gatón
  2. Σκοπός των δεδομένων: Έλεγχος SPAM, διαχείριση σχολίων.
  3. Νομιμοποίηση: Η συγκατάθεσή σας
  4. Κοινοποίηση των δεδομένων: Τα δεδομένα δεν θα κοινοποιούνται σε τρίτους, εκτός από νομική υποχρέωση.
  5. Αποθήκευση δεδομένων: Βάση δεδομένων που φιλοξενείται από τα δίκτυα Occentus (ΕΕ)
  6. Δικαιώματα: Ανά πάσα στιγμή μπορείτε να περιορίσετε, να ανακτήσετε και να διαγράψετε τις πληροφορίες σας.