الرياضيات > الرياضيات

كيف يترجم غوغل الصور الى كلمات؟

قام مهندسو شركة غوغل بتدريب خوارزمية تعلّم آلي لاستنباط شرح خاص بالصور ، وذلك باستخدام نفس التقنيات التي طوروها للترجمة النصّية.

لقد كانت مهمة الترجمة من لغة إلى أخرى مهمّة صعبة على الدوام ، ولكن في السنوات الأخيرة قامت غوغل بتبسيط هذه العملية من خلال تطوير خوارزميات للترجمة الآلية ، وأصدرت محرك الترجمة الخاص بها (Google Translate)والذي غيّر من طبيعة التواصل الثقافي في العالم.

وتقوم الآن الشركة باستخدام تقنيات التعلم الآلي نفسها لترجمة الصور إلى كلمات ، والنتيجة هي نظام يعلّق على الصور تعليقا آلياً يصف محتواها وبشكل دقيق.

سيكون هذا النظام مفيد لمحركات البحث وللنشر الآلي

كما سيساعد فاقدي البصر على تصفح الانترنت وبالتالي الاطلاع على العالم بشكل أفضل.

إن الطريقة التقليدية في ترجمة النصوص هي عملية تكرارية (Iterative) تبدأ بترجمة كل كلمة على حدة ومن ثم إعادة ترتيب الكلمات والجُمل لتحسين الترجمة ، ولكن في السنوات الأخيرة قامت غوغل باستخدام قاعدة بياناتها الضخمة للترجمة النصية بطريقة مختلفة كليّا.

تقوم الطريقة على معرفة عدد المرات التي تظهر فيها كلمات مجاورة لبعضها ، أو قريبة من بعضها ، ومن ثم تعريفها بفضاء شعاعي مختزل يربط فيما بينها. ويتيح ذلك تمثيل كل كلمة بشعاع في هذا الفضاء ، والجُمل بمجموعة من الأشعّة.

وضعت غوغل فرضيّة مهمة مفادها أنّ بعض الكلمات لها نفس العلاقة مع بعضها ، بغضّ النظر عن اللغة ، فمثلا الشعاع " ملك – رجُل + امرأة = ملكة " هو نفسه في جميع اللغات.

يجعل ذلك مشكلة الترجمة مشكلة رياضية خاصّة بفضاء المتجهات (الأشعّة) ، حيث يقوم Google translate بتحويل الجملة لشعاع ومن ثم استخدامه لتوليد الجملة المناظرة في اللغة الأخرى.

يقوم الآن أوريول فينيالز (باحث في غوغل) وزملاءه باستخدام نفس الطريقة لترجمة الصور إلى كلمات ، وتقوم تقنيتهم على استخدام شبكة عصبية (neural network) تقوم بدراسة مئة ألف صورة مع تعليقاتها لكي تتعلم كيف تصنّف محتوى الصورة.

ولكن بدلاً من اخراج مجموعة من الكلمات لوصف الصورة ، تقوم الخوارزمية بإخراج شعاع يمثّل العلاقة بين الكلمات، ويمكن استخدام هذا الشعاع في نظام غوغل الموجود مسبقا لتحديد الكلمات ..

سواء بالانكليزية أو بأي لغة أخرى.

في الواقع ، لقد تعلم نظام التعلّم الآلي لدى غوغل كيف "يترجم" الصور الى كلمات.

لاختبار كفاءة هذه الطريقة ، عيّنت غوغل حكّام تم توظيفهم من موقع (Amazon’s Mechanical Turk) لتقييم التعليقات الناتجة عن هذا النظام ، ومقارنتها بنتائج طرق آلية أخرى ، وبنتائج العقل البشري.

أظهرت النتائج أنّ النظام الجديد ، والذي أسمته غوغل الشرح العصبي للصور (Neural Image Caption) عادل في تقييمه ، وقد تفوّق على الطرق الآلية الأخرى عند تطبيقه على مجموعة معروفة من الصور تدعى (PASCAL).

بقول فينيالز : " حصل نظام NIC (Neural Image Caption) على 59 درجة ، وللمقارنة فإن أحدث التقنيات لديها 25 درجة . بينما أداء الإنسان يصل الى 69 "

النتيجة ليست سيئة ، كما أن النتائج تصبج أفضل مع اتساع حجم المجموعة التي يتم تدريبه عليها، يقول فريق غوغل : " واضح من التجارب أنّه كلما ازداد حجم مجموعة الصور والشرح المتاح ، سوف يتحسّن أداء NIC ".

تزيد هذه المهمة من الاعتقاد بأنّ أيام تفوق الانسان على الآلة أصبحت معدودة.

المصدر:

O. Vinyals، A. Toshev، S. Bengio، D. Erhan: هنا

هنا