المعلوماتية > الذكاء الصنعي

التعرف الآلي إلى الوجوه مع غياب بعض أجزائها

إنّ إمكانية تعرف الوجوه -حتى إن كانت تظهر على نحو جزئي- تُعدّ من التحديات الأساسية للحاسوب، ولكن ليس بعد الآن؛ فقد طُوّرت مؤخرًا تقنية جديدة قادرة على تعرف الوجوه غير مكتملة الوضوح كالوجوه المقنّعة وما شابه (1).

باستخدام تقنيات الذكاء الصنعي، طوّر فريق من الباحثين في جامعة برادفورد Bradford في المملكة المتحدة تقنيةً جديدة للتعرف إلى الأشخاص عن طريق توفر أجزاء من وجوههم دون ظهور ملامح الوجه كاملة، وقد حققت هذه التقنية معدلات تعرُّف بنسبة 100% لكل من ثلاثة أرباع الوجوه وأنصافها (2).

ويقول البروفيسور حسن عجيل -مدير مركز الحوسبة المرئية Computing Centre for Visual في كلية الهندسة والمعلوماتية في جامعة Bradford، وهو أحد الباحثين المطورين للتقنية- مبيّنًا الغاية من عملهم: "إن قدرة البشر على التعرف إلى الوجوه مذهلة، ولكن أظهرت الأبحاث أنها تتناقص عندما لا نستطيع رؤية أجزاء من الوجه، وقد أثبتت الحواسيب القدرة على امتلاكها أداءً أفضل من البشر في التعرف إلى الوجه من بين عدد ضخم من الوجوه، لذلك؛ أردنا أن نرى ما إذا كانت ستكون أفضل في التعرف إلى الوجه الجزئي أيضًا" (2).

تَستخدم التقنية المطورة الشبكة العصبونية التلافيفية Convolutional Neural Network(CNN*؛ إذ اعتُمِد على أنموذج استخلاص السمات الذي يسمّى VGG face**، وهو يُعدّ أحد أشهر النماذج المستخدمة على نطاق واسع في تعرف الوجوه، وعُمِل على مجموعة بيانات (Dataset) تحتوي صورًا متنوعة عددها 2000 صورة لمئتَي طالب وموظف من جامعة (Faculdade de Engenharia Industrial (FEI البرازيلية؛ نصفهم إناث، ونصفهم الآخر ذكور.

يبين الشكل الآتي البنية العامة للتقنية المطورة؛ إذ يُغذَّى النظام بمدخلات عبارة عن صور تحتوي على وجوه، لتُستخلَص بعدها السمات باستخدام أنموذج VGG face آنف الذكر، لتأتي بعدها مرحلة تصنيف السمات التي تُسنِد كلَّ سمة إلى الصنف الموافق لها؛ كأن تُسنَد صورة الوجه الكاملة أو الجزئية إلى صنف وجه الشخص الموافق. ويذكر أنّه اختُبِرت عدة مصنفات واستُخدِم مقياس التشابه (Cosine Similarity(CS*** ومصنف (SVM) Support Vector Machine الخطي****، فقد أظهروا بأنهم يمتلكون الأداء الأفضل في العمل المقترح ولديهم القدرة على فصل البيانات على النحو الأكثر دقة (3).

هامش الصورة: البنية العامة للتقنية المُطوّرة للتعرف إلى صور الوجوه الجزئية (3)

الجدير بالذكر هنا أن الفريق قد درّب الأنموذج المُطوَّر باستخدام صور لوجوه كاملة، ثم أجروا تجربةً لمعرفة مدى قدرة الحاسب على تعرف الوجوه حتى عندما يُعرَض جزءٌ منها فقط، فتعرّف الحاسب إلى الوجوه الكاملة بنسبة 100%، كذلك حقق نجاحًا بنسبة 100% مع صور تحوي ثلاثة أرباع الوجه وتتضمن إما النصف العلوي وإما النصف الأيمن من الوجه، في حين تعرّف بنسبة 60% إلى الوجوه التي تحوي النصف السفلي فقط من الوجه، أما الوجوه التي تحوي العينين والأنف فتعرّف إليها بنسبة 40% (2).

ثم أجروا التجربة مرة أخرى بعد تدريب الأنموذج باستخدام صور الوجوه الجزئية، وقد تحسنت النتائجُ هذه المرة على نحو ملحوظ فيما يخص تعرف الوجوه التي تحتوي على النصف السفلي من الوجه، والتي تحتوي العينين والأنف، وحتى الوجوه التي قد لا تبدو فيها العينان والأنف مرئيين؛ إذ تُعرِّف على نحو صحيح بنسبة تقارب 90%. أما فيما يخص الصور التي تحوي جزءًا واحدًا من الوجه -كالأنف أو الخد أو الجبين أو الفم- فقد كانت معدلات التعرف إلى الوجوه التي تحويهم فقط منخفضةً في كلتا التجربتين (2).

إنّ النتائج واعدة بحسب البروفيسور حسن عجيل، فقد علّق قائلًا: "قد أظهرنا الآن أنه من الممكن الحصول على التعرف الدقيق إلى الوجه من الصور التي تُظهر جزءًا فقط منه. وهذا بدوره يفتح إمكانيات أكبر لاستخدام تقنية التعرف إلى الوجوه لأغراض أمنية ولمنع حصول الجرائم"، ويكمل قائلًا: "تحتاج تجاربنا الآن إلى التحقق من صحة عمل الأنموذج المُطوَّر باستخدام مجموعة بيانات أكبر بكثير" (2).

هوامش:

*الشبكة العصبونية التلافيفية (Convolutional Neural Network (CNN:

هي أحد أنواع التعلم العميق (الشبكات العصبونية العميقة- Deep NN)، وتُستخدَم عادةً في تطبيقات الرؤية الحاسوبية (Computer vision) وتحليل المشاهد المرئية؛ إذ تتميّز بوجود طبقة مخفية واحدة أو أكثر من شأنها استخراج السمات الموجودة في الصور أو مقاطع الفيديو، وطبقة كاملة الارتباط لإنتاج الخرج المطلوب، وهي تعتمد على تطبيق نظريات علم الأعصاب المرتبطة بآلية عمل الدماغ في تعرُّف الأغراض (4).

**VGG face: هو أنموذج شبكة عصبونية تلافيفية يُستخدَم لاستخلاص السمات من الوجه؛ أي مثلًا تحديد أن النطاق العمودي الأكثر بروزًا في الوجه هو الأنف، وطوّرته مجموعة أكسفورد للهندسية المرئية Oxford Visual GeometryGroup، فقد دُرِّب الأنموذج على مجموعة بيانات ضخمة تحتوي على صور لـ2.6 مليون وجه لأكثر من 2.6 ألف شخص. وتتكون بنية VGGF من 38 طبقة بدءًا من طبقة الدخل حتى طبقة الخرج، وهو يحتوي على ثلاث عشرة طبقة تلافيفية (5).

*** (Cosine Similarity (CS:هو مقياس رياضي يستخدم لإيجاد التشابه بين السمات من أجل حساب التشابه بين الكائنات objects في بعض خوارزميات تعلم الآلة (6).

**** Support Vector Machine (SVM: تُعدّ واحدة من أكثر الخوارزميات شهرة على الإطلاق، هي خوارزمية تعلم آلة خاضعة لمشرف (supervised) ويمكن استخدامها في كل من التصنيف البسيط الخطي والمعقد غير الخطي؛ إذ تهدف إلى إيجاد نطاق في مساحة ذات N بُعد لتصنيف البيانات بوضوح، وذلك عن طريق إنشاء فاصل يقسم بين البيانات حسب الصنف الذي تنتمي إليه، كمثال؛ إما 0 وإما 1 (3).

المصادر:

Singh، A.، Patil، D.، Reddy، G. and Omkar، S.، 2017. Disguised Face Identification (DFI) with Facial KeyPoints Using Spatial Fusion Convolutional Network. 2017 IEEE International Conference on Computer Vision Workshops (ICCVW)،. هنا

2- University of Bradford. 2020. Half A Face Enough For Recognition Technology. [online] Available at: <هنا; [Accessed 9 April 2020].

3- Elmahmudi، A. and Ugail، H.، 2019. Deep face recognition using imperfect facial data. Future Generation Computer Systems، 99، pp.213-225.

هنا

(4)

Albawi، S.، Mohammed، T. and Al-Zawi، S.، 2017. Understanding of a convolutional neural network. 2017 International Conference on Engineering and Technology (ICET)،.

هنا;

(5)

Robots.ox.ac.uk. 2020. Visual Geometry Group - University Of Oxford. [online] Available at: <هنا; [Accessed 9 April 2020]

(6)

Sidorov، G.، Gelbukh، A.، Gómez-Adorno، H. and Pinto، D.، 2014. Soft Similarity and Soft Cosine Measure: Similarity of Features in Vector Space Model. Computación y Sistemas، 18(3).

هنا