نظام تعلم آلة لتعرّف الصوت والشكل معًا.
المعلوماتية >>>> الذكاء الصنعي
على العكس من تقنيات التعرف الصوتي الحالية، فإن هذا الأنموذج لا يحتاج إلى إدخال يدوي للنصوص والتعليقات التوضيحية الخاصة بالأمثلة التي قد تدرب عليها، وعوضًا عن ذلك؛ سيتعلم الكلمات مباشرة عن طريق المقطع الصوتي المسجَّل والأغراض من الصور الأولية، وسيربط فيما بعد لغرض مع الوصف الصوتي الخاص به.
يمكن للأنموذج في الوقت الحالي أن يتعرّف عددًا محدودًا من الكلمات والأغراض من مختلف الأنواع، وقد يصل عددهم إلى بضعة مئات، ولكن؛ يأمل الباحثون أن تتمكن تقنية تعرف الكلام -في يوم من الأيام- من توفير عدد كبير من ساعات العمل اليدوي، وأن تفتح أبوابًا جديدةً في مجال تعرّف الصوت والصورة.
وعلى سبيل المثال؛ تتطلب نظم تعرّف الصوت مثل سيري Siri وجوجل فويس Google voice تفريغَ آلاف الساعات من التسجيلات الصوتية، ثم باستخدام البيانات الناتجة عن عملية التفريغ؛ ستتعلم الأنظمة وضع خرائط تربط إشارات الكلام بكلمات محددة، ولكن تكمن المشكلة عند إدخال مصطلحات جديدة إلى القاموس؛ هذا سيجعل من إعادة تدريب الأنظمة أمرًا واجبًا.
ويقول ديفيد هارواث؛ الباحث في مختبر علوم الحاسوب والذكاء الصنعي CSAIL ومجموعة الأنظمة المحكية: "أردنا أن نحقق تعرّف الكلام بطريقة تكون أقرب إلى الطبيعية، وذلك للاستفادة من الإشارات والمعلومات الإضافية التي ستكون ذات منفعة للبشر، والتي لا يمكن لخوارزميات التعلم الآلي عادةً الوصول إليها، وقد كان لدينا فكرة تدريب أنموذج بأسلوب مشابه لسير الطفل عبر العالم ورواية ما يراه"، وقد شارك هارواث في تأليف ورقة بحثية تصف الأنموذج الذي قُدِّم حديثًا في المؤتمر الأوروبي الذي تناول موضوع الرؤية الحاسوبية.
وأثبت الباحثون في هذه الورقة أنموذجهم عن طريق تجربته على صورة فتاة صغيرة ذات شعر أشقر وعينين زرقاوتين، وترتدي هذه الفتاة فستانًا أزرق، وكانت تحوي خلفية الصورة منارةً بيضاء لها سقف أحمر؛ تعلَّم الأنموذج ربط أيّ البيكسلات في الصورة تتطابق مع الكلمات "فتاة" و"شعر أشقر" و"عينان زرقاوتان" و"فستان أزرق" و"منارة بيضاء"، وأخيرًا "سقف أحمر"، واستطاع الأنموذج وضع إشارة على كل من هذه التفصيلات في الصورة في أثناء وصفها.
إنّ أحد التطبيقات الواعدة هو تعلم الترجمة بين اللغات المختلفة دون الحاجة إلى حواشي ثنائية اللغة، ومن بين ما يقدر بـ 7000 لغة منطوقة عالميًّا؛ هناك فقط ما يقارب 100 لغة لديهم ما يكفي من نسخ البيانات لتعرف الكلام، ولنفكر في موقف توصف فيه صورة واحدة من قبل شخصين يتحدثان بلغتين مختلفتين؛ فإنْ كان الأنموذج يتعلم إشارات الكلام من اللغة المنطوقة من قبل الشخص الأول والتي تطابق الأغراض في الصورة، ويتعلم إشارات الكلام من اللغة المنطوقة من قبل الشخص الثاني والتي تطابق هذه الأغراض نفسها، فبإمكان الأنموذج حينها عدُّ هاتين الإشارتين تُترجِمان بعضهما.
ويقول هارواث: "هناك إمكانية لوجود آلات ميكانيكية من نوع سمكة بابل"؛ مشيرًا إلى سماعة الأذن الحية الخيالية في روايات "دليل المرشد إلى المجرة"، والتي تترجِم مختلف اللغات لمرتديها.
الارتباطات السمعية البصرية:
يتوسع هذا العمل عن الأنموذج السابق المصمَّم من قبل هارواث وغلاسس وتورالبا، والذي يربط الكلام مع مجموعات من الصور التي ترتبط ببعضها بموضوعات متشابهة، ووضعوا في أثناء البحث السابق صورًا تحوي مشاهد مأخوذة من قاعدة بيانات تصنيفية مخزنة في منصة التعهد التركي الآلية، وبعد ذلك؛ جلبوا أشخاصًا ليصفوا الصّور كما لو أنهم يصفونها إلى طفل مدّة عشر ثوان، وجمع المصممون أكثر من 200 ألف زوج من الصور والمقاطع الصوتية لمئات الموضوعات المختلفة؛ مثل الشواطئ ومراكز التسوق الكبيرة وشوارع المدينة وغرف النوم.
ومن ثم صمموا أنموذجًا يتكون من شبكتين عصبونيتين منفصلتين convolutional neural networks (CNNs)؛ واحدة من هذه الشبكات لمعالجة الصور، والأخرى للعمليات على الطيف الضوئي والتمثيل البصري للإشارات الصوتية؛ ذلك لكونها تتغير بمرور الوقت، وتحسب الطبقة العليا من الأنموذج المخرجات الخاصةَ بالشبكتين، وتربط أنماط الكلام مع بيانات الصورة.
فعلى سبيل المثال؛ سيعطي الباحثون الأنموذجَ مقطعًا توضيحيًّت أوليًّا مع الصورة الأولى، وبعد ذلك؛ سيعطونه مقطعًا عشوائيًّا ثان مع الصورة الأولى، والذي يُعدُّ تصرفًا خاطئًا؛ إذ لا يتعلق المقطع الصوتي بالصورة، وبعد مقارنة آلاف المقاطع التوضيحية الخاطئة مع الصورة الأولى؛ استطاع الأنموذج تعلم إشارات الكلام المتعلقة بالصورة الأولى، وربط هذه الإشارات بالكلمات المذكورة في المقطع التوضيحي.
وكما وُضِّح في دراسة عام 2016 كمثال عن ما تَعلَّمه الأنموذج؛ هو اختيار الإشارة التي تقابل كلمة "ماء" واسترجاع الصور التي تحوي الماء كافّة.
ويقول هارواث: "لكنه لم يكن يمتلك إمكانية التحديد والتعبير عن الوقت الدقيق الذي نطق فيه الشخص كلمة تشير إلى رقعة محددة من البيكسلات".
صناعة التطابقات
عدّل الباحثون في الورقة البحثية الجديدة الأنموذج ليربط كلمات معينة مع رقع معينة من البيكسلات، ودربوا الأنموذج باستخدام قاعدة البيانات نفسها مع إضافة 400 ألف زوج جديد من الصور والمقاطع الصوتية، وأبقوا 1000 زوج عشوائي من أجل التجارب.
وعلى نحوٍ مشابه؛ يعطى الأنموذج في التدريب صورًا ومقاطعَ صوتية متطابقة على نحوٍ صحيح وعلى نحوٍ خاطئ أيضًا، ولكن في هذه المرة؛ تقسّم الشبكة العصبونية الخاصة بتحليل الصور الصورةَ إلى شبكةِ خلايا تتكون من رقع من البيكسلات، وأمّا الشبكة العصبونية الخاصة بتحليل الصوت؛ فتقسم المخطط الصوتي إلى مجموعة أقسام يتكون كلٌّ منها من ثانية وحدة، ويحوي كلمة أو كلمتين.
ومع الحصول على الصورة الصحيحة والمقطع الصوتي الصحيح؛ يطايق الأنموذج الخلية الأولى الموجودة في شبكة الخلايا مع الجزء الأول من المقطع الصوتي، ومن ثم يطابق الخلية نفسها مع الجزء الثاني من المقطع الصوتي، وبالطريقة نفسها مرورًا بالخلايا الموجودة في الشبكة كافّة مع جميع أجزاء المقاطع الصوتية، وسيعطي الأنموذج من أجل كلّ خلية وجزء من المقطع الصوتي درجةَ تشابه؛ وذلك اعتمادًا على مدى تقارب الإشارة من الغرض.
ويكمن التحدي في أثناء عملية التدريب في أن الأنموذج لا يستطيع الوصول إلى أيّة معلومات عن حقيقة الترابط ما بين الكلام والصورة، ويقول هارواث: "إن أكبر إسهام في هذه الورقة هو إثبات أن هذه الترابطات (السمعية والبصرية) يمكن استنتاجها تلقائيًّا عن طريق تعليم الشبكة أي الصور والمقاطع الصوتية تنتمي إلى بعضها وأي منها لا تكون كذلك".
ويصف المؤلفون ارتباط التعلم التلقائي ما بين الشروح الصوتية الموجية وبيكسلات الصورة بكلمة "تطابق"، وبعد التدرب على آلاف أزواج الشروح والصور؛ تُضيّق الشبكة الترابطات ما بين الكلمات المحددة التي تمثل أغراض محددة في هذا التطابق.
ويقول هارواث: "إنه أشبه بالانفجار العظيم؛ كانت المادة مشتتة للغاية، ولكن بعد ذلك تجمعت لتكوّن الكواكب والنجوم" ويقول أيضًا: "في البداية؛ تكون التنبؤات مشتتة في كل مكان، ولكن مع التدريب المستمر؛ تتحول هذه التنبؤات إلى ترابط يمثل نقاطًا دلالية بين الكلمات المنطوقة والأغراض المرئية".
المصادر
هنا
هنا