المعلوماتية > الذكاء الصنعي
روبوت يتعلم تمييز ما يلمس، ويشعر بمَلمَس ما يرى؛ فإلى أين نحن مُتّجهون؟!
يستطيع الإنسان التمييز بين الأغراض عن طريق لمسها ويتمكن من معرفة ملمس الغرض بالنظر إليه، ولكن؛ هل تمتلك الروبوتات القدرة على فعل ذلك؟ وهل هي قادرة على الربط بين حاستي الرؤية واللمس واستخدام ذلك في التمييز بين الأغراض المرئية أو الملموسة؟
"إن حاسة اللمس تأتي قبل النظر وقبل الكلام. إنها اللغة الأولى والأخيرة، ثم إنها تخبرنا بالحقيقة دائمًا".
المؤلفة الكندية مارغريت أتوود (Margaret Atwood) في كتابها القتلة العميان (Blind Assassins)
يوجهنا الإحساس باللمس لنشعر بالعالم المادي، في حين تساعدنا أعيننا على فهم الصورة الكاملة لهذه الإشارات اللمسية.
ومن أجل سد هذه الفجوة الحسية على نحو أفضل، توصل باحثون من مختبر علوم الحاسوب والذكاء الصنعي في معهد ماساتشوستس للتقنية (MIT) إلى أنه يمكن للذكاء الصنعي التنبُّئِي (predictive artificial intelligence) أن يتعلم الرؤية -أي تكوين تصوّر عن ماهية الغرض الملموس وشكله- عن طريق اللمس، ويتعلم الشعور عن طريق الرؤية.
ولكن؛ لا يمكن للروبوتات التي بُرمِجت للرؤية فقط أو للشعور فقط استخدام هذه الإشارات بطريقة تبادلية.
تمكن الفريق من إنشاء إشارات واقعية عن طريق المدخلات البصرية، والتنبؤ بأي جسم وما هو الجزء الذي يُلمَس مباشرة من تلك المدخلات اللمسية.
وقد استخدموا ذراع الروبوت KUKA، مع جهاز استشعار لمسي يسمى GelSight الذي صممته مجموعة أخرى في (MIT).
كذلك سجلوا عن طريق استخدام كاميرا ويب بسيطة نحو 200 غرض لُمِسَ أكثر من 12000 مرة؛ مثل الأدوات والمنتجات المنزلية والأقمشة وغير ذلك، ومن ثم قُسِّمت مقاطع الفيديو هذه البالغ عددها 12000 مقطع إلى إطارات ثابتة. علمًا أن مجموعة البيانات "VisGel" هي مجموعة بيانات تضم أكثر من 3 ملايين صورة مرئية/ ملموسة (visual/tactile) اختُبِرت في (MIT)؛ أي إنها تحمل معلومات عن الشكل والملمس.
يوضح "ينزو لي" Yunzhu Li طالب الدكتوراه في CSAIL والمؤلف الرئيس في الورقة البحثية: "عن طريق النظر، يمكن أن يتخيل الروبوت ويشعر باللمس ما إذا كان السطح مستوٍ أم إنه حافة حادة"، ويضيف: "وعن طريق اللمس فقط يمكنه أن يتنبَّأ شكل الغرض الملموس ويتفاعل مع البيئة المحيطة. إن الجمع بين هاتين الحاستين قد يطور قدرة الروبوت ويقلل عدد البيانات التي يحتاجها لإنجاز المَهمات التي تنطوي على معالجة الأغراض وفهمها".
وفي الآونة الأخيرة، كانت معظم الأعمال الحديثة تزود الروبوتات بالحواس المادية التي تُحاكي حواس الإنسان، مثل مشروع MIT لعام 2016 باستخدام التعلم العميق (Deep learning) للإشارة إلى الأصوات، أو أنموذج الروبوتات التي بإمكانها الاستجابة للقوى الفيزيائية؛ إذ يستخدم كلاهما مجموعات بيانات كبيرة -لكنها غير متوفرة حاليًّا- لفهم التفاعلات بين الرؤية واللمس.
تعتمد التقنية التي عمل عليها الفريق على استخدام مجموعة البيانات VisGel، ونوع من الشبكات العصبونية الصنعية هو الشبكة التوليدية التنافسية (generative adversarial network: GAN).
تستخدم شبكات GAN الصور المرئية أو الملموسة لتوليد صور جديدة بطريقة أخرى، وهي تعمل باستخدام مولد (generator) ومُميّز (discriminator) اللذين يتنافسان بعضهما مع بعض؛ إذ يهدف المولِّد إلى إنشاء صور حقيقية بغرض خداع المميّز. وفي كل مرة يقوم المُميِّز بإمساك المولد، يجب عليه أن يوضِّح المنطق الداخلي لاتخاذ القرار؛ الأمر الذي يسمح للمولد بتحسين نفسه مرارًا وتكرارًا.
من الرؤية إلى اللمس:
يمكن للبشر استنتاج ملمس الشيء أو توليد شعور بسببه عن طريق رؤيته. ولتعليم الآلات هذه القدرة على نحو أفضل، وجبَ على النظام أولًا تحديد موضع اللمس من الغرض، ثم استنباط معلومات عن شكل المنطقة الملموسة وملمسها.
وساعدت الصور المرجعية (reference images) -دون أي تفاعل من الروبوت- النظامَ على تشفير التفاصيل عن الكائنات والبيئة. بعد ذلك في أثناء عمل ذراع الروبوت، أمكن للروبوت ببساطة مقارنة الصورة الحالية مع الصورة المرجعية، وتحديد موقع المنطقة الملموسة وحجمها وملمسها بسهولة.
قد يبدو هذا مثل تعليم النظام صورةً لفأرة حاسوب، ثم "رؤية" هذه المنطقة بحيث يتنبأ عندها الروبوت بوجوب لمس الغرض من أجل التقاطه؛ مما قد يساعد الآلات على نحو كبير على اتخاذ إجراءات أكثر أمانًا وفعالية ضمن البيئة التي يوضعون فيها.
من اللمس إلى الرؤية:
في هذه الحالة كان الهدف من الروبوت إنتاج صورة مرئية بواسطة الغرض الملموس وتكوين صورة عنه؛ إذ يحلل الروبوت المعلومات الناتجة عن اللمس، فيكتشف شكل الغرض الذي يلمسه وطبيعة المادة المكوَّن منها، ومن ثم يعود إلى الصورة المرجعية لتكوين تخيل عن هذا التفاعل ضمن البيئة.
على سبيل المثال؛ إذا غُذّيَ الروبوت في أثناء الاختبار ببيانات لمس غرض مثل حذاء، فقد ينتج عن ذلك صورة عن الموضع الذي يُرجَّح أنه لُمِس عنده.
قد تكون هذه القدرة مفيدة لإنجاز المَهمات في الحالات التي تفتقر إلى بيانات مرئية؛ كأن يكون المكان مظلمًا، أو في حال البحث ضمن صندوق يُجهَل ما بداخله، أو إذا كانت المنطقة مجهولة.
الرؤية المستقبلية:
إن مجموعة البيانات الحالية هي أمثلة لتفاعلات في بيئة معروفة ومُتحَكَّم بها.
ويأمل الفريق في تحسين ذلك بجمع البيانات في مناطق غير معروفة ومنظمة، أو باستخدام قفاز اللمس الجديد الذي صممه معهد (MIT) لزيادة حجم مجموعة البيانات وتنوعها. (يُمكن التعرف إليه أكثر:هنا)
لا تزال هناك تفاصيل يمكن أن تكون خادعة عند الاستنتاج، ولا سيما عند التبديل من وضع إلى آخر؛ مثل إخبار لون الشيء بمجرد لمسه، أو إخبار مدى نعومة أريكة دون الضغط عليها.
ويقول الباحثون إنه يمكن تحسين ذلك بإنشاء نماذج أكثر قوة لمعرفة النتائج المحتملة على نطاق أوسع.
أما في المستقبل، فيمكن لهذا النوع من الأنظمة أن يساعد على وجود علاقة أكثر انسجامًا بين الرؤية والروبوتات، ولا سيما فيما يخص تعرف الأشياء وفهمها على نحو أفضل والمساعدة على تكامل الروبوت للعمل في بيئة مساعدة أو المعامل.
يقول "أندريو أوينز" Andrew Owens طالب دراسات عليا في جامعة كاليفورنيا: "هذه هي النظرية الأولى التي يمكن أن تترجم العلاقة بين حاسة البصر وحاسة اللمس على نحو مقنع"، ويضيف: "من المحتمل أن تكون نظريات كهذه مفيدة للغاية للروبوتات؛ إذ يمكن أن تحتاج إلى الإجابة عن أسئلة مثل: 'هل هذا الغرض صلب أم ناعم؟' أو 'هل رفعتَ القدح بيدك أم لا؟'، ونجد أنّ هذه المشكلة صعبة للغاية لأن الإشارات مختلفة تمامًا، ولكن؛ أظهر هذا الأنموذج قدرة عالية جدًّا".
برأيك؛ هل سنتمكن في المستقبل من مصافحة روبوت ليتعرف إلينا عن طريق مصافحته لنا والنظر إلينا فقط؟!
شاركنا رأيك في التعليقات.
المصادر: