قام Deezer بفتح الكود المصدري لـ Spleeter وهو نظام لفصل الموسيقى والصوت

سبليتر

مزود دفق الموسيقى أطلق سراح Deezer الأخبار التي في الآونة الأخيرة قررت فتح شفرة المصدر لمشروع تجريبي "Spleeter" التي تتكشف مثل نظام التعلم الآلي لفصل مصادر الصوت من التراكيب الصوتية المعقدة. يسمح لك البرنامج نفسه بإزالة الأصوات من المقطوعة وترك المرافقة الموسيقية فقط ، والتلاعب بصوت الآلات الفردية أو إسقاط الموسيقى والسماح للصوت بالتداخل على خط صوت آخر ، وإنشاء مزيج ، أو كاريوكي أو نسخ.

في هذا المشروع التجريبي "Spleeter" ، تقدم نماذج مدربة بالفعل لتنزيل الأصوات وفصلها مرافقة صوتية بالإضافة إلى تقسيمها إلى 4 و 5 تيارات ، بما في ذلك الغناء ، والطبول ، والباس ، والبيانو ، وبقية الصوت. يمكن استخدام Spleeter كمكتبة Python أو كأداة مساعدة قائمة بذاتها لسطر الأوامر.

عند التقسيم إلى 2 و 4 تيارات ، يوفر Spleeter أداءً عاليًا جدًاعلى سبيل المثال ، عند استخدام وحدة معالجة الرسومات ، قسّم ملفًا صوتيًا إلى 4 تدفقات يستغرق وقتًا أقل 100 مرة من مدة التكوين الأصلي.

تحت الغطاء ، يعتبر Spleeter محركًا معقدًا ومصممًا إلى حد ما ، لكننا عملنا بجد لجعله سهل الاستخدام حقًا. يمكن تحقيق الفصل الفعلي من خلال سطر أوامر واحد ، ويجب أن يعمل على الكمبيوتر المحمول ، بغض النظر عن نظام التشغيل الخاص بك. للمستخدمين الأكثر تقدمًا ، هناك فئة Python API تسمى Separator والتي يمكنك معالجتها مباشرة في خط الأنابيب المعتاد.

على نظام مع NVIDIA GeForce GTX 1080 GPU ووحدة المعالجة المركزية Intel Xeon Gold 6134 ذات 32 نواة ، تم الانتهاء من معالجة مجموعة معايير musDB ، والتي استغرقت ثلاث ساعات و 27 دقيقة ، في 90 ثانية.

من المزايا التي تقدمها Spleeter ، مقارنة بالتطورات الأخرى في مجال فصل الصوت ، مثل مشروع Open-Unmix المفتوح تم ذكر استخدام النماذج المبنية بشكل أفضل استنادًا إلى مجموعة واسعة من ملفات الصوت.

إليكم سبب قرار Deezer لإطلاق شفرة Spleeter ، لأنه في المنشور المتعلق به ، يعلق:

لماذا إطلاق Spleeter؟

إجابة مختصرة: نستخدمها في بحثنا ونعتقد أن الآخرين قد يرغبون في ذلك أيضًا.

لقد عملنا على فصل المصدر لفترة طويلة (وكان لدينا بالفعل وظيفة في ICASSP 2019). لقد قارنا Spleeter بالنموذج Open-Unmix ، وهو نموذج آخر مفتوح المصدر تم إصداره مؤخرًا بواسطة فريق بحث Inria ، وأبلغنا عن أداء أفضل قليلاً مع سرعة أعلى (لاحظ أن مجموعة بيانات التدريب ليست هي نفسها).

أخيرًا وليس آخرًا ، يتطلب تدريب هذه الأنواع من النماذج الكثير من الوقت والطاقة. من خلال القيام بذلك مرة واحدة ومشاركة النتيجة ، نأمل في إنقاذ الآخرين من بعض المشاكل والموارد.

بسبب قيود حقوق النشر، باحثو التعلم الآلي لديك وصول محدود إلى مجموعات من ملفات الموسيقى نماذج وصول عامة هزيلة إلى حد ما ، بينما تم تصميم نماذج Spleeter باستخدام بيانات من كتالوج الموسيقى الشامل لـ Deezer.

بالمقارنة مع الأدوات المفتوحة مثل unmix ، يقوم Spleeter بأداء أسرع بنسبة 35٪ تقريبًا في معايير وحدة المعالجة المركزية، فهو يدعم ملفات MP3 ويولد نتائج أفضل بكثير (في تخصيص الأصوات في Open-Undo ، فهو يمزج آثار بعض الأدوات التي ربما ترجع إلى حقيقة أن نماذج Open-Unmix مدربة في مجموعات من 150 مسارًا فقط).

يأتي كود المشروع في شكل مكتبة بايثون استنادًا إلى Tensorflow ، مع نماذج مدربة مسبقًا لفصل الإرسال 2 و 4 و 5 ويتم توزيعها بموجب ترخيص معهد ماساتشوستس للتكنولوجيا. في أبسط الحالات ، يتم إنشاء ملفين أو أربعة أو خمسة ملفات مع غناء ومكونات مرافقة (vocals.wav و drums.wav و bass.wav و piano.wav و other.wav) بناءً على الملف المصدر.

إذا كنت تريد معرفة المزيد عن هذا المشروع ، يمكنك استشارة الرابط التالي أو يمكنك التحقق من شفرة المصدر الخاصة به على هذا الرابط.

مقياس سيتم تقديمه وعرضه على الهواء مباشرة في مؤتمر ISMIR 2019 في دلفت.


محتوى المقال يلتزم بمبادئنا أخلاقيات التحرير. للإبلاغ عن خطأ انقر فوق هنا.

كن أول من يعلق

اترك تعليقك

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها ب *

*

*

  1. المسؤول عن البيانات: ميغيل أنخيل جاتون
  2. الغرض من البيانات: التحكم في الرسائل الاقتحامية ، وإدارة التعليقات.
  3. الشرعية: موافقتك
  4. توصيل البيانات: لن يتم إرسال البيانات إلى أطراف ثالثة إلا بموجب التزام قانوني.
  5. تخزين البيانات: قاعدة البيانات التي تستضيفها شركة Occentus Networks (الاتحاد الأوروبي)
  6. الحقوق: يمكنك في أي وقت تقييد معلوماتك واستعادتها وحذفها.