سيِّد الأتاري؛ خوارزمية جديدة هزمت غوغل في لعبة الفيديو الشهيرة!
المعلوماتية >>>> برمجة الألعاب
أظهرت دراسة شهيرة في عام 2015م أنَّ الذكاء الصنعي -الخاص بشركة ديب مايند التابعة لغوغل (Google DeepMind AI)- قد تعلَّم ألعاب الأتاري مثل لعبة (Video Pinball) بنفس مستوى البشر، ولكنَّ الشركة فشلت فشلًا ملحوظًا بإيجاد الطريق إلى الدليل الأول في لعبة (Montezuma’s Revenge) بسبب تعقيد اللعبة.
وطُوِّرت في جامعة (RMIT) طريقةٌ جديدة، أُعدَّت وفقها الحواسيب لتلعب لعبة (Montezuma’s Revenge) على نحو مستقل؛ عن طريق التعلُّم من الأخطاء وتحديد الأهداف الجزئية أسرع بعشر مرات من (Google DeepMind) لإنهاء اللعبة.
وكشف الأستاذ المساعد فابيو زامبيتا (Fabio Zambetta) من جامعة (RMIT) عن النهج الجديد في مؤتمر ( AAAI) الثالث والثلاثين للذكاء الصنعي في الولايات المتحدة.
طُوِّرت هذه الطريقة بالتعاون بين البروفيسور جون ثانغاراجاه (John Thangarajah)، وميشيل دان (Michael Dann) من جامعة (RMIT)، لتجمع بين التعلُّم بالتعزيز (Reinforcement Learning) ونهج الدافع الداخلي (Intrinsic Motivation) الذي يكافئ الذكاء الصنعي لكونه فضوليًّا لاكتشاف بيئته.
يقول (Zambetta): "حتى يكون الذكاء الصنعي ذكيًّا حقًّا؛ يجب أن يكون قادرًا على إتمام المهام في بيئات غامضة (لم يُلقَّن معطياتها من قبل)، ويمكن تحسين النتائج باستخدام النوع الصحيح من الخوارزميات، وباستخدام نهج أكثر ذكاءً، بدلًا من استخدام أسلوب قائم على حلِّ المشكلة من البداية إلى النهاية على حواسيب عالية الأداء. وتُظهر نتائجنا مدى اقترابنا من استقلال الذكاء الصنعي، ومن الممكن أن تكون الطريقة الرئيسية للتحقُّق فيما إذا أردنا مواصلة إحراز تقدُّم ملحوظ في هذا المجال."
إنَّ طريقة (Zambetta) تكافئ النظام لاكتشافه -ذاتيًّا- أهدافًا فرعية مثل "تسلُّق ذلك السلم" أو "اقفز من فوق تلك الحفرة"، والتي من الممكن ألَّا تكون واضحة للحاسوب ضمن سياق إكمال مَهمة أكبر من هذه الأهداف الفرعية، في حين تطلَّبت أنظمة أخرى مدخلاتٍ بشرية لتمييز هذه الأهداف الجزئية، وفي حال عدم توفُّر المدخلات البشرية؛ فإنَّ الأنظمة ستَّتخذ قرار الخطوة التالية عشوائيًّا.
يقول (Zambetta): "لم تميِّز خوارزمياتنا المستقلة المهامَ المتعلِّقة ببعضها على نحو أسرع بعشر مرات تقريبًا من (Google DeepMind) في أثناء لعب (Montezuma’s Revenge) فحسب؛ بل وأبدت سلوكًا مشابهًا للسلوك البشري في أثناء فعل ذلك أيضًا، فعلى سبيل المثال، قبل أن تصل إلى الشاشة الثانية من اللعبة؛ عليك تحديد مهام فرعية مثل تسلُّق السلالم والقفز فوق العدو، وفي النهاية عليك التقاط المفتاح، إذ تكون ممارسة هذه الأفعال وفق هذا الترتيب تقريبًا.
ومن ثمَّ يحدث هذا -في النهاية- على نحو عشوائي بعد فترة زمنية هائلة، ولكن حدوثه بهذه الطريقة الطبيعية ضمن اختباراتنا يبيِّن لنا النيَّة والقصد للوصول إلى هذه النتيجة؛ ما يجعل وكيلنا -الأولَ من نوعه، والمستقلَّ على نحو كامل، والمتخصِّصَ بالأهداف الفرعية- يصبح منافسًا حقيقيًّا للأنظمة الحديثة لهذه الألعاب.
ومن الممكن للنظام أن يعمل خارج ألعاب الفيديو، لأداء نطاق واسع من المهمَّات؛ وذلك عندما يزوَّد بالمدخلات الأولية اللازمة.
وقد تبدو فكرة إنشاء خوارزمية قادرة على إنهاء ألعاب الفيديو أمرًا تافهًا؛ ولكن في حقيقة الأمر، فإنَّ تصميم خوارزمية يمكنها التعامل مع الغموض في أثناء الاختيار من عدة خيارات متاحة للأفعال التي يمكن تأديتها، والتي قد تكون بدورها حرجة وحساسة؛ يعني أنَّه مع مرور الوقت ستكون هذه التقنية ذات نفع لتحقيق الأهداف في العالم الحقيقي؛ سواءٌ كان ذلك في مجال القيادة الآلية للسيارات أو في صنع مساعدين آليين مفيدين في مجال التعرُّف إلى اللغات الطبيعية".
خوارزمية العرض التكراري (The Iterated Width - IW):
توفِّر بيئة (Arcade Learning Environment - ALE) منصةً صعبةً لتقييم مخطِّطي ومتعلِّمي الذكاء الصنعي عن طريق واجهة ملائمة لمئاتٍ من ألعاب Atari 2600.
تُعرف خوارزمية العرض التكراري بوصفها خوارزمية تخطيط كلاسيكية؛ دخلها هو المسألة المراد حلَّها، وخرجها هو سلسلة الأفعال التي يجب تأديتها لحلِّ المسألة.
ونسعى نظريًّا إلى الوصول إلى تسلسل أفعال (a1, a2, a3, a4 ...إلخ)؛ ابتداءً من الحالة الأولية (s0)، التي يتولَّد بعدها تسلسلُ حالات (s1, s2, s3, s4 …إلخ)، والذي يحقِّق مكافأة كُلية عُظمى تبلغ ، بحيث m: هي أفق تخطيط كبير بما فيه الكفاية بالنسبة إلى المسألة، وبحيث لا يعرف كلُّ من تابع المكافأة (r(ai, si، وتغيُّرات الحالة إلَّا بعد تطبيق الفعل ai على الحالة si.
وتقوم هذه الخوارزمية على أساس دمج مزايا نوعين من الخوارزميات:
وتتكوَّن الخوارزمية (IW) من تسلسل استدعاءات (IW(1), IW(2), IW(3...إلخ؛ إذ يمثِّل كلُّ استدعاء خوارزميةَ البحث المتَّسع (خوارزمية العرض أولًا - Breadth-first Search)* بحيث يجب على كلِّ استدعاء أن يولِّد عقد بحث جديدة، مساويةً ترتيبه بعددها.
مثلًا؛ يحتفظ الاستدعاء (IW(1 بالحالة في حال كانت هي الأولى التي تجعل عقدةً واحدةً أخرى تمثِّل حالة واعدة فقط، ويُحتفَظ بالاستدعاء (IW(2 في حال جعل عقدتين أُخريين تمثِّلان حالةً واعدة.
خطوات الخوارزمية:
تتألَّف خوارزمية العرض المتكرِّر من سلسلة من الاستدعاءات (IW(i بحيث i= 0, 1, 2, 3... للمسألة (P) إلى أن يتحقَّق شرط التوقُّف.
إنَّ الإجراء (IW(i عبارة عن حالة استدعاء عودي للبحث العرضي مع تغيير وحيد فقط: بعد إنشاء الحالة (s) مباشرة؛ تُشذَّب في حال عدم اجتيازها اختبار بسيط، ويكون شرط التوقُّف -بالنسبة إلى التخطيط الكلاسيكي- هو تحقيق الهدف.
أمَّا في الألعاب المعتمدة على الإنترنت -كتلك الموجودة في ألعاب الأتاري- فيُعطى شرط التوقُّف عن طريق وقت محدَّد أو عدد أعظمي للعقد المولَّدة، ويُعثَر على أفضل مسار عن طريق (IW)؛ وهو المسار الذي يمتلك أعظم مكافأة متراكمة، وتُحدَّد المكافأة العظمى التراكمية (R(s -للحالة التي قد وُصِل إليها من تكرار (IW)- بواسطة أب فريد للحالة s0 مثل (R(s) = R(s0) + r(a,s0.
والحالة الأفضل هي الحالة التي تكون فيها المكافأة أعظمية (R(sوالتي أُنشئت دون تشذيب من قِبل (IW)، والمسار الأفضل هو هذا الذي يقودنا من الحالة (s) إلى الحالة الحالية، والفعل المُختار الذي يجب اعتماده لاحقًا هو الفعل الأول على هذا المسار.
* تولِّد هذه الخوارزمية بيان فضاء حالة شامل؛ وذلك بتطبيق جميع المؤثِّرات الممكنة على عقدة البداية، ثمَّ بتطبيق جميع المؤثِّرات الممكنة على جميع العقد المولَّدة من عقدة البداية المباشرة، وهلُمَّ جرًّا..
ويجري البحث بانتظام نحو الأسفل انطلاقًا من عقدة البداية إلى حين الوصول إلى العقدة الهدف.
المصادر:
1- هنا
2- هنا