محاكاة قدرة البشر في البحث عن الأشياء; (الجزء الثاني)
الهندسة والآليات >>>> الروبوتات
المقال هنا يكمل ما بدأناه في المقال السابق حول تطوير قدرة الروبوتات على البحث عن الأشياء المختلفة في أماكن مختلفة، إذ نتحدث الآن عن عمل فريق آخر من الباحثين وما توصّلوا إليه في هذا المجال. المصادر:
طوّر اليوم كارلوني Luca Carlone وطلابه من معهد ماساتشوستس للتكنولوجيا MIT نموذجًا للإدراك المكاني للروبوتات، إذ يحاكي هذا النموذج طريقة البشر في فهم العالم والتنقل فيه(1).
يقول لوكا كارلوني، بروفيسور مساعد في علم الطيران والملاحة الفضائية في MIT: "لكي نأخذ أي قرار في العالم، علينا أن نملك نموذجًا عقليًّا عن البيئة المحيطة بنا وهذا شيء سهل بالنسبة للبشر، لكنها مشكلة شديدة التعقيد بالنسبة للروبوتات، إذ يجب عليهم أن يحوّلوا القيم البيكسلية التي يرونها عبر الكاميرا إلى فهم للعالم.''(1)
يدعى النموذج الجديد 3D Dynamic Scene Graphs الذي يمكّن الروبوت من إنشاء خريطة ثلاثية الأبعاد للمحيط، تتضمن العناصر المنزلية مع إشارات دلالية عليها (مثلًا التقابل بين الكرسي والطاولة، أي معرفة أن العنصر هو كرسي بدلالة وجود عنصر آخر كالطاولة)، الناس، الغرف، الجدران والبُنَىْ الأخرى التي يمكن أن يراها الروبوت في البيت، إذ يساعد هذا النموذج الروبوت على استخراج المعلومات المهمّة من البيئة المحيطة والبحث عن موقع الأشياء والغرف أو حركة البشر في طريقه.(1)
تطوّرت رؤية الرّوبوتات وطريقة تنقّلها حتى الآن في مسارين: صنع الخرائط ثلاثية الأبعاد التي تمكّن الرّوبوتات من إعادة بناء بيئتها المحيطة بنحو ثلاثي الأبعاد من خلال تنقّلها في الزّمن الحقيقي، والتصنيف الدلالي الذي يساعد الرّوبوت أن يصنف ما يشاهده في بيئته إلى عناصر دلالية، مثل السّيارة مقارنة بالدراجة، وهذا ما تمّ حتى الآن في الصّور ثنائية الأبعاد(1).
قبل إكمال شرح طريقة العمل، ربما شرح بسيط لعملية بناء البيئة في الزمن الحقيقي Real-Time سيكون مفيدًا(2).
بنحو بسيط يمكن تعريف نظام الزّمن الحقيقي أنّه النظام الذي لا تعتمد فيه قيمة الخرج على قيمة الدّخل فقط، وإنّما تعتمد أيضًا على توقيت النظام، والسّبب في ذلك أن دخل النظام عادةً يتعلق بحركة ما في العالم الحقيقي، وعليه فإنّ الخرج يكون متعلقًا بهذه الحركة أيضًا، بالآتي يجب أن يكون فرق التوقيت بين قيمتي الدّخل والخرج صغير جدًّا بحيث يكون توقيت النظام مقبولًا(2).
بمعنى آخر يمكن تعريف أنظمة الزّمن الحقيقي على أنّها الأنظمة التي تعطي نتائجًا صحيحة في غضون فترة زمنية محددة، وفي حال تجاوزت استجابة الحاسوب الفترة الزمنية المحدّدة يمكن أن يحدث خللًا أو يتدهور الأداء(2).
يقوم نموذج كارلوني الجديد من خلال استقباله للمحيط بإنشاء خريطة ثلاثية الأبعاد للبيئة في الزمن الحقيقي، وفي نفس الوقت يقوم بوضع الدلالات على العناصر، الأشخاص (عناصر متحركة على عكس الجمادات) والهياكل ضمن هذه الخريطة الثلاثية الأبعاد(1).
المكوّن الأساسي في النموذج الجديد هو كيميرا Kimera، عبارة عن مكتبة مفتوحة المصدر طُوِّرت من قبل الفريق كي تقوم ببناء نموذج جيومتري ثلاثي الأبعاد لبيئة ما بالتزامن مع برمجة التّعرف على ما إذا كان عنصرًا معينًا يبدو ككرسي بالمقارنة مع مكتب(1).
يعمل كيميرا على أخذ سلسلة صور من كاميرا الروبوت، وفي نفس الوقت يقوم باستقبال قياسات قوى الدفع الذاتية للروبوت من الحساسات المركّبة عليه، كي يُقدَر الروبوت أو الكاميرا وبناء المشهد بوصفها شبكة ثلاثية الأبعاد في الزّمن الحقيقي(1).
كي ينشىء كيميرا شبكة ثلاثية الأبعاد، عليه أن يستعمل شبكات عصبية مدرّبة على ملايين الصور في العالم الحقيقي، ليستطيع تعريف كل بيكسل في الصورة (أي معرفة العنصر الذي ينتمي له)، ثم يضع دلالات كل بيكسل بنحو ثلاثي الأبعاد باستخدام تقنية تدعى ray-casting المستخدمة في رسوميات الحاسوب من أجل الحصول على المشاهد في الزمن الحقيقي(1).
الRay-casting أو بالعربية يمكن القول (التمثيل بالأشعة) هي طريقة تستخدم الأشعة لتمثيل الأجسام وفق الخطوات التالية :
- إنشاء شعاع من عين المُراقب (عدسة الكاميرا) عبر كل بيكسل من مستوي الرؤية.
- تحديد أول سطح يتقاطع فيه الشعاع مع سطح الجسم ومن ثم خُفِط.
(3).
Image: https://ocw.mit.edu/courses/electrical-engineering-and-computer-science/6-837-computer-graphics-fall-2012/lecture-notes/MIT6_837F12_Lec11.pdf
النتيجة هي خريطة لبيئة الروبوت تمثل شبكة كثيفة ثلاثية الأبعاد، بحيث يكون لكل وجه لون معين ويمثل جزءًا من العناصر، البُنَىْ والناس في هذه البيئة(1).
إذا اعتمد الروبوت في تنقّله ضمن بيئة ما على هذه الشبكة فقط، ستكون مَهمّة غير مجدية من حيث الحسابات والوقت، لذلك بنى الباحثون كيميرا عبر تطوير خوارزميات لإنشاء "رسوميات مشهد" ديناميكية ثلاثية الأبعاد بناءًعلى شبكة كيميرا الدلالية عالية الكثافة(1).
رسوميات المشهد هي نماذج رسوميات حاسوبية شائعة تقوم بإنشاء وتعديل مشاهد معقدة، وهي تستخدم عادة في محركات ألعاب الفيديو لتمثيل بيئات ثلاثية الأبعاد(1).
يوضح مقطع الفيديو الآتي طريقة بناء رسوميات المشهد الديناميكي ثلاثية الأبعاد 3D Dynamic Scene Graphs :
في حالة رسوميات المشهد ثلاثية الأبعاد، تقوم الخوارزميات بتبسيط شبكة كيميرا الدلالية ثلاثية الأبعاد إلى طبقات دلالية، فيستطيع الروبوت رؤية المشهد عبر طبقة معينة، تتوالى الطبقات بنحو هرمي ابتداءً من الأشياء والناس إلى المساحات المفتوحة والبُنَىْ مثل الحوائط والسقوف، ثم إلى الغرف والممرات والصالات، وفي النهاية إلى البناء نفسه(1).
يقول كارلوني أن هذا التمثيل الطبقي يجنب الروبوت صنع مشهد من بلايين النقاط والوجوه في الشبكة الثلاثية الأبعاد الأصلية(1).
اختبر الفريق نموذجهم الجديد في جهاز محاكي صور تشبه الواقع، طُوِرت في مختبر لينكولن في MIT، وهو يحاكي تنقل روبوت في بيئة مكتبية تحوي أناسًا يتنقلون فيها(1).
يعدُ هذا الإنجاز نقلة نوعية في عالم الروبوتات، إذ يمكن أن يؤثر في الكثير من التطبيقات اليومية بما في ذلك السيارات ذاتية القيادة، عمليات البحث والإنقاذ، عمليات التصنيع وغيرها من التطبيقات الأخرى، فهل تعتقد أن أمر كهذا يمكن أن يكون له آثار سلبية في المستقبل ؟
1- Chu J. “Alexa، go to the kitchen and fetch me a snack” [Internet]. MIT News | Massachusetts Institute of Technology. 2020 [cited 21 October 2020]. Available from: هنا
2- Raj S N A. Real-Time Systems [Internet]. ResearchGate. 2020 [cited 1 November 2020]. Available from: هنا
3- Ocw.mit.edu. 2020. [online] Available at: هنا [Accessed 3 November 2020]