المعلوماتية > الذكاء الصنعي
شبكة عصبونية صنعية تُولِّد الموسيقا
MuseNet
MuseNet هي شبكة عصبونية عميقة قادرة على توليد مؤلفات موسيقية مدتها أربع دقائق تضم عشر آلات موسيقية مختلفة، وتستطيع الدمج بين أنماط مختلفة من الموسيقا من الشعبي لموتسارت أو حتى لفرقة البيتلز The Beatles.
لم تبرمج شبكة MuseNet اعتمادًا على فهمنا البشري للموسيقا، وإنما اكتشفت أنماط التناغم والإيقاع والأسلوب عن طريق تعلمها التنبؤ بالرمز التالي في مئات الآلاف من ملفات *MIDI.
تستخدم MuseNet تقنية تعليم بدون إشراف Unsupervised Learning عامة الغرض مثل GPT-2، وهو أنموذج محول واسع النطاق دُرب على التنبؤ بالرمز التالي في تسلسل، سواء أكان صوتًا أم نصًا.
ستسمع في النمط الافتراضي عينات عشوائية غير دقيقة مولدة سابقًا. اختر مؤلِفًا أو نمطًا موسيقيًّا تفضله (يمكنك اختيار مقطوعة موسيقية شهيرة) لتنتقل بعدها إلى عملية التوليد. ستكتشف أنماطًا موسيقية عديدة ابتكرها الأنموذج لك. يمكنك في الحالات المتقدمة التفاعل مع الأنموذج مباشرة، ولكن عندها ستستغرق وقتًا أطول لتنتهي، ولكنك ستكون قد ابتكرت مقطوعة جديدة كليًّا خاصة بك.
قيود MuseNet
هناك قيدان لعملية توليد المقطوعات:
- تؤخذ الآلات الموسيقية التي تختارها في الحسبان حقًّا، ولكنها ليست متطلبات مُلزِمة. إذ تولد MuseNet كل علامة موسيقية عن طريق حساب الاحتمالات لكل الآلات والعلامات الموسيقية الممكنة، ثم يُجري الأنموذج عدة تغييرات لجعل الآلات مألوفة أكثر؛ أي يبقى احتمال اختيار آلات موسيقية أخرى من قبل الأنموذج قائمًا.
- تستغرق MuseNet وقتًا أطول عند دمج أنماط وآلات موسيقية غريبة أو متنافرة (مثال Chopin مع آلة الكونترباص والطبول)، إذ سيكون التوليد أقرب للطبيعي عندما تُنتقى آلات قريبة ومشابهة للاختيارات الاعتيادية للفرقة أو للموسيقا.
اُبتكر تأليف موسيقي وتوزيع لإعطاء تحكم أكبر بأنواع العينات التي يولدها MuseNet؛ ففي مرحلة التدريب يُرفق كل من المؤلف والتوزيع الموسيقي مع كل عينة، ومن ثم سيتعلم الأنموذج كيفية استخدام هذه المعلومات للتنبؤ بالعلامات الموسيقية. تأتي بعدها مرحلة التوليد ويمكن عن طريقها تحديد كيفية تأدية الأنموذج ابتكار العينات وفق أسلوب تختاره كأن تختار البدء بمقطوعة محددة لفرقة نحبها أو موسيقي مفضل.
البنية على المدى البعيد
تستخدم MuseNet نوى شبكة Sparse Transformer* الصنعية المحسنة والمعاد حسابها والمكونة من 72 طبقة مع 24 رأس انتباه مع تركيز تام على كامل السياق المؤلف من 4069 رمزًا. يمنح هذا السياق الطويل القدرة على تذكر بنية قطعة موسيقية على المدى البعيد.
يعدُّ التوليد الموسيقي مجالًا جيدًا لاختبار Sparse Transformer، التي تضم كلًّا من الصور والنصوص؛ إذ إنها تحوي بنية ترميز سلسة للنصوص.
قاعدة البيانات
تضمنت قاعدة البيانات المستخدمة لتدريب MuseNet بيانات من مصادر مختلفة، منها ملفات MIDI الخاصة بـ BitMidi وClassicalArchives، إضافة إلى عدة مجموعات موسيقية متوفرة على الإنترنت مجانًا تشمل أنماطًا موسيقية مختلفة مثل: موسيقا الجاز والبوب والموسيقا الإفريقية وغيرها.
دُرب المحول على بيانات متسلسلة؛ وذلك بإعطائه مجموعة من العلامات الموسيقية، ثم نطلب منه التنبؤ بالعلامة الموسيقية التالية. وجُرب العديد من الطرائق المختلفة لترميز ملفات MIDI رموزًا ملائمة لهذه المهمة وفق:
- أعد نهج chordwise كل مجموعة من العلامات الموسيقية التي تظهر في وقت واحد بمثابة "وتر" فردي (نغم)، وعُين رمز مميز لكل وتر.
- تُكثف الأنماط الموسيقية عن طريق التركيز على بداية العلامات الموسيقية فقط.
- ثم ضغطها باستخدام نمط ترميز بايت ثنائي.
كما أنشئ نظام تقييم داخلي أيضًا، فقد يطلب من الأنموذج في أثناء وقت التدريب التنبؤ فيما إذا كانت العينة المولدة موجودة في قاعدة البيانات أم أنها من النماذج التي ولدت سابقًا. تُستخدم هذه النتيجة لاختيار العينات في وقت التوليد.
التضمينات
أُضيفت أنواع تضمينات مختلفة لإعطاء الأنموذج سياقًا أكثر هيكلية، إضافةً إلى التضمينات المتغيرة المعيارية، فقد أضيف تضمين عُلم لتتبع الوقت الذي يمر في عينة ما. ومن ثم فإن جميع العلامات الموسيقية التي تصدر صوتًا في وقت ما تُعطى التضمين الزمني نفسه. بعدها يُضف تضمين لكل علامة موسيقية في مجموعة النغمات. أخيرًا؛ نضيف اثنين من السياقات الهيكلية التي تُخبر الأنموذج عن مكان وجود عينة موسيقية معينة ضمن المقطوعة الموسيقية الكلية. يَقسم التضمين الأول المقطوعة الموسيقية الكلية إلى 128 جزءًا، في حين أن الترميز الثاني هو عداد تنازلي من 127 إلى 0 عندما يقترب الأنموذج من نهاية الرموز.
والآن بعد أن عرفت كيفية عمل هذه الشبكة العصبونية المولدة للموسيقا، هل تحمست لتأليف مقطوعتك الخاصة باستخدام هذه الشبكة؟!
*MIDI: Musical instrument digital interface
* وهي عبارة عن شبكة عميقة حققت أرقامًا قياسية في قدرتها على التنبؤ بما سيأتي في سلسلة ما، سواء أكانت نصًا أم صورة أم صوتًا، إذ تُستخدم خوارزمية تحسين لآلية الانتباه، وذلك لاستخراج أنماط من سلاسل طولها يساوي ثلاثة أضعاف من الاحتمال السابق.
المصادر: