المعلوماتية > الذكاء الصنعي

تطبيقٌ ذكيٌّ يتتبّع اليد المتحرّكة في مشهد مصوّر بالزمن الحقيقي

أصبح الالتقاطُ السّريعُ لحركاتِ اليَدِ والأصابعِ ضمنَ العديد من تطبيقات الزمن الحقيقيّ أمرًا جوهريًّا، بدءًا بتطبيقات الواقع الافتراضيّ، وانتهاءً بالصناعة والتطبيقات التفاعليّة بين الآلة والإنسان. وقد طوّر باحثون في معهد ماكس بلانك لعلوم الحاسوب نظامًا برمجيًّا يُعدُّ الأوّل من نوعه في مضمار توليد نموذج ثلاثيّ الأبعاد ليدٍ متحرّكة ضمن مشهد مصوّر أو أمام الكاميرا، وبالزمن الحقيقيّ.

يستند هذا النموذج إلى التفاعل بين عدّة شبكات عصبونيّة صنعيّة تعمل خلف الكواليس، بأسلوب لا يتطلّب سوى وجود كاميرا الحاسوب المحمول.

لقد رأى هذا التطبيق النورَ في 11 حزيران (يونيو)؛ إذ قُدّم في معرض هانوفر الدوليّ للتكنولوجيا في ألمانيا. وطريقة استخدامه بسيطة جدّاً؛ فعندما يضع المستخدم يده أمام كاميرا الحاسوب المحمول تظهر صورةُ يده على الشاشة، مكسوّة بهيكلٍ عظميّ افتراضيّ وملوّنٍ، وذلك بغضّ النظر عن الحركات التي تفتعلُها اليدُ أمام الكاميرا؛ إذْ تبقى متتبِّعةً لحركة اليد بكسوةٍ عظميّة ملوَّنة.

وطُوّر هذا النظام من قبل عالمة الحاسوب فرانزيسكا مولر (Franziska Müller) بالتشارك مع البروفيسور كريستيان ثيوبال (Christian Theobal) وباحثين آخرين من معهد ماكس بلانك لعلوم الحاسوب وجامعة ستانفورد وجامعة الملك خوان كارلوس الإسبانيّة.

إنّ النظامَ مناسبٌ تقريبًا لكلّ أنواع المشاهد المصوَّرة، وتحوّل الخوارزميّة المستخدَمة معلومات الفيديو ثنائيّة البعد إلى هيكل عظميّ متحرّك ثلاثيّ الأبعاد لليد، وفي الزمن الحقيقيّ؛ إذ دَرّب الباحثون النظامَ على التعرّف إلى عظام اليد باستخدام نوع مهمّ جدّاً من الشبكات العصبونية الصنعيّة يُسمّى الشبكة العصبونية التلافيفيّة (convolutional neural network)، واختصاراً (CNN). ووُلِّدت بيانات التدريب الضروريّة باستخدام شبكة عصبونيّة مولِّدة أُخرى - سنتعرّف إلى الطريقة بعد قليل - والنتيجة: معرفةٌ دقيقة لمواضع عظام اليد ضمن الفضاء ثلاثيّ الأبعاد بالزمن الحقيقي.

زِدْ على ذلك قيمة مُضافة مهمّة؛ إذ يحافظ النظام على هذا التحديد الدقيق، حتّى وإنْ ثُنيت بعض الأصابع، أو أُخفيت عند إمساك غرض مُعيّن على سبيل المثال.

ولكن في المقابل وعند تعدّد الأيدي في المشهد يصبح النظام قاصرًا عن تحديد مواضع هذه الأيدي المُتحرّكة معاً، لذا يُعدّ حلّ هذه المُشكلة الهدفَ القادم للباحثين في دراسات لاحقة.

فلنُلقِ نظرةً أعمقَ إلى هذا النظام، هيّا بنا!

تجمع الطريقة المُستخدَمة في تتبّع الحركة بين شبكةٍ عصبونيّةٍ تلافيفيّة ونموذج حرَكيّ ثلاثيّ الأبعاد لليد، بأسلوب تكون فيه الشبكة قادرةً على التعميم من أجل بيانات غير مرئيّة، كحالات ثني الأصابع أو قبض كفّ اليد أو حتّى زوايا رؤية مختلفة للكاميرا؛ مؤدّيةً إلى تتبّع أوتوماتيكيّ ومقبول ظاهريًّا للحركات الانسيابيّة لليد.

ولتدريب الشبكة العصبونيّة التلافيفيّة الخاصّة بهذا النظام نحتاج إلى بيانات للتدريب، لذا اقترح الباحثون، بهدف الحصول عليها، منهجيّة جديدة بغية إجراءِ توليدٍ لبياناتِ التدريب تعتمد على شبكة ترجمة صورة- لصورة مُتّسقة هندسيّاً؛ إذْ يُقصد بالترجمة تحويل صورة الدخل التي تنتمي إلى صفّ أو مجال ما إلى صورة تنتمي إلى صفّ أو مجال جديد، كتحويل لون الشعر من الأشقر إلى الأسود مثلاً. أمّا الاتّساق الهندسيّ؛ فالمقصود به هو الحفاظ على العناصر الأساسيّة في الصورة ضمن مواقعها بعد عمليّة الترجمة هذه، كموقع اليد على سبيل المثال.

ولنكون أكثر دقّة فقد استُخدمت شبكة عصبونيّة (تسمّى الشبكة التخاصُميّة المولِّدة Generator adversarial Network: GAN) لتوليد صور لا يمكن تمييزها عن الصور الحقيقيّة.

إنّ القضيّة الأساسية لمثل هذه المنهجيّات في التدريب بإِشراف معلّم؛ هي الحاجة إلى مجموعة تدريب مناسبة. وعلى الرغم من إمكانيّة تحديد المواقع ضمن الصور الملوَّنة ثنائيّة البعد بوضوح؛ لكنْ تصبح هذه المهّمة أصعب عندما ننتقل إلى الفضاء ثلاثي الأبعاد نظرًا لغموض العمق ضمن المشهد. وإحدى الطرائق المستخدَمة لتخطّي هذه العقبة هي الاستفادة من الطرائق الموجودة والمُعتمِدة على تعدّد الكاميرات لتحديد مسار حركة اليد في الفضاء ثلاثيّ الأبعاد.

إنّ دقّة الصور المُولَّدة ستكون متواضعة، نظراً لأخطاء التتبّع الحتميّة، وكذلك ستدرّب الشبكة التلافيفيّة على بيانات اصطناعيّة قد لا تكون بالدقّة المطلوبة دائماً. وللتغلّب على ذلك؛ عمد الباحثون إلى إجراء مقابلة بين الصور الاصطناعيّة والصور الحقيقيّة، وهذا يتطلّب وجود أمرين أساسيّين: أولاً؛ القدرة على التدريب على صور مُفردة؛ أي إمكانيّة جمع طيف واسع من الصور الحقيقيّة للأيدي، ثانياً؛ الحاجة إلى خوارزميّة تَضْمَن موقع اليد ليبقى الهيكل العظمي الملوَّن للصور المُصطنعة صالحاً للصور المترجَمة.

ولتحقيق هذه الغاية نستفيد من العمل الأساسي على CycleGANs، الذي يتعلّم وبنجاح طيفًا واسعًا من مهامّ المقابلة صورة- لصورة مع أمثلة مُفردة، ما يُساعد في الحفاظ على تحديد المواقع مع فقدان أقلّ للكسوة، وتحديد أكثر وضوحًا للحوافّ. ويوسّع ذلك باستخدام فقد الاتّساق الهندسيّ الّذي يحسّن النتائج فيما يخصّ سيناريوهات التدريب على جزء مكانيّ معيّن من المشهد (جزء اليد من المشهد فقط على سبيل المثال).

وبمجرّد أن تُدرّبَ الشبكة يصبح في مقدورها توليد صور لا يمكن تمييزها عن الصور الحقيقيّة، تُستخدم كدخلٍ لتدريب الشبكة العصبونيّة التلافيفيّة في المرحلة اللّاحقة. وبينما يكون دمج نموذج الهيكل العظميّ لليد مع التوقّعات ثنائية البعد كافياً لتقدير المُقابلة الشموليّة لليد، تحلّ المواقعُ النسبيّة ثلاثيّة الأبعاد الغموضَ الكامن في الدوران الشموليّ، والارتباط المفصليّ الّذي يحدث في المواقع ثنائيّة البعد.

إذن، تُقسّم المنهجيّة إلى قسمين كما هو موضّح في الصورتين الآتيتين:

أوّلاً: تعزيز مجموعة التدريب بصورٍ مُصطنعة بواسطة الشبكات العصبونية المولِّدة GAN.

ثانياً: تقدير وضع اليد في الزمن الحقيقيّ عن طريق الدمج بين تحديد مواقع المفاصل باستخدام شبكةٍ عصبونيةٍ تلافيفيّة، ونموذج حرَكيّ ثلاثيّ الأبعاد لليد.

بالمختصر؛ النقط الأساسيّة للتطبيق تكمن فيما يأتي:

1- يُعدّ النظام الأوّل من نوعه في تتبّع حركة اليد بالزمن الحقيقيّ؛ إذ يتتبّع المواقع الشموليّة ثلاثية البعد لمفاصل اليد من صور ملوّنة غير محكومة بقيود.

2- شبكة عصبونيّة جديدة متّسقة هندسيّاً(Generative Adversarial Net: GAN)، تُنجز ترجمة صورة- لصورة مع المحافظة على تحديد المواقع خلال الترجمة.

3- القدرة على تعزيز مجموعات البيانات بصور اصطناعيّة لليد، باستخدام الشبكة العصبونيّةGAN الآنفة الذكر، بأسلوب لا يُمكن معه تمييز هذه الصور عن الصور الحقيقيّة.

4- مجموعة بيانات جديدة بصور ملوَّنة، مرفقة بشروحات لتحديد مواقع مفاصل اليد.

تتفوّق مجموعة البيانات هذه على غيرها في الحجم( أكثر من 260 ألف صورة)، وفي دقّة الصورة، ودقّة الشروحات المرفَقة.

ليس الأمر ببعيدِ المنالِ، فالأبحاث مستمرّة والعقول المتفانية للعلم لا تتوقّف عن الإنتاج.

بتوسيع مجموعات التدريب والاختبار، وتحسين التوابع الرياضيّة المستخدَمة، وإنجاز الكثير من التجارب والتحسينات يمكن الوصول إلى خوارزميّات غاية في الدقّة، وتطبيقات من أفضل ما يمكن بغية تحسين حياة الناس.

المصادر:

هنا