المعلوماتية > الذكاء الصنعي

منشوراتك وتعليقاتك تُحدد جنسك وعمرك!

استمع على ساوندكلاود 🎧

طور باحثون من جامعة البوليتكنيك في فالنسيا أداةً جديدة يُمكنها تحديدُ الجنس والمجال العُمري لمستخدمي الشبكات الاجتماعية وذلك من خلال منشوراتهم وتعليقاتهم في هذه الشبكات.

التطبيقات المحتملة لهذه الأداة كثيرة، حيث يُمكن أن تُستخدمَ في توصيف الجانحين والكشف عن حالات الاستغلال الجنسي للأطفال. كما تُعدُّ أداةً فعالة للشركات إذا تُقدم معلوماتٍ مهمة عن قاعدة عملائها مما يُمكّنها من اتخاذ إجراءات تسويقية أكثر تركيزاً.

يقول "Paolo Rosso" الباحث في الجامعة: "معلوماتُ الجنس والعمر الخاصّة بمستخدمي الشبكات الاجتماعية غيرُ معروفة أو غير مصرّح بها دائماً، وحتى إن وجدت فقد لا تكون صحيحة دائماً، وهنا تقوم هذه الأداةُ بتحليل هذه المعلومات من خلال تطبيق تقنيات التحليل اللغوية الحاسوبية."

كيف تعملُ هذه الأداة؟

تُطبِّق هذه الأداةُ نظريةَ البيان (Graph Theory) لتحليل اللغة الـمُستخدمة من قِبل مستخدمي الشبكات الاجتماعية، إذ تقوم بتحليل أزمنة الأفعال والفئات النحوية الأكثر تكراراً وبنية النص ونوع التعابيير المستخدمة والمحتوى العاطفي. بتحليل هذه البيانات، يُمكن تحديدُ فيما إذا كان كاتبُ النص ذكراً أو أنثى أو فيما إذا كان شخصاً يافعاً أو شاباً أو بالغاً.

يكمنُ التحدي في هذه الدراسة في القدرة على تحليل بُنًى لغوية معقدة؛ فلكلِّ شخصٍ منا أسلوب في الكتابة، وهذا الأسلوب يُعبر عنه بمجموعة من السمات اللغوية والنفسية التي قام الباحثون باستخلاصها من النص وهي على النحو التالي:

1- السِّماتُ الـمَبنيّةُ على الأسلوب:

- التواتر (Frequencies):

النسبة بين عدد الكلمات الفريدة والعدد الكلي للكلمات، والكلمات المبتدئة بحرف كبير والكلمات المكتوبة بأحرف كبيرة وطول الكلمات وعدد الأحرف الكبيرة وعدد الكلمات التي تحتوي على أحرف مكررة (مثل Heeeelloooo).

- علامات الترقيم:

تواتر استخدام النقط والفواصل والفواصل المنقوطة وعلامات الاستفهام وعلامات التعجب وإشارات الاقتباس.

- التحليل النحوي:

تواترُ استخدامِ الفئاتِ النحوية (مثل الاسم والفعل)، وعددِ وفاعلِ الفعل والضمائر، ونمط استخدام الفعل، والأعلام والكلماتِ غير الموجودة في القاموس.

- الرموز التعبيرية:

نسبة عدد هذه الرموز إلى العدد الكلي للكلمات وعدد الأنواع المختلفة للرموز المعبرة عن المشاعر مثل الفرح والحزن والغضب والسخرية.

- التصنيف الدلالي للكلمات:

قام هنا الباحثون بتصميف الأفعال إلى عدة صفوف دلالية، فكل فعل يُصنف إلى أحد الفئات التالية: الإدراك (مثل رأى واستمع وشمَّ)، أو الفهم (مثل فهِم وفكّر واعتقد) أو الشك (مثل تجاهلَ وشكَّ) أو اللغة (مثل أخبرَ وقال وصرّح وتكلّم) أو العاطفة (مثل شعرَ وأراد وأحبَّ ) أو الإرادة (مثل سمَح ومنع).

2- السِّماتُ الـمُستخلصةُ من البيان:

يقوم الباحثون ببناء بيانٍ أوليٍّ باستخدام الفئات النحوية الـمُستخرجة سابقاً من النص، ثم يقومون لاحقاً بإغناء هذا البيان بمعلوماتٍ عن العواطف المُعبّر عنها وعن قطبية الكلمات وأنواع الأفعال والأسماء المستخدمة. ومن ثم يقومون بتطبيق نظرية البيان لحسابِ وزن أو أهميةِ كلِّ عنصر ضمن بنيان النص. ثم يقومون بتحليل البيان لاستخراج بعضِ السِّمات منه لاستخدامها لاحقاً بالإضافة للسمات السابقة في عملية تدريب النموذج باستخدام خوارزميات التعلم التلقائي. تتعلق هذه السمات بنسبة البُعد بين عقد البيان وعدد جيران كل عقدة.

يوضح الشكل أعلاه تمثيل جملة " The cat eats fish and drinks water" بواسطة البيان

حيث تُشير العقدة NCMS000 إلى فئة البيولوجيا والحيوانات، أما العقدة VMIP3S0 فتُشير إلى فئة الأفعال الإدراكية.

تُستخدم هذه الأداة بالفعل حالياً في تحقيقات الشرطة حول تهديدات التفجير بالقنابل. في هذه الحالات تتم مراقبة الحسابات ذات الصلة، لا لمعرفة مايكتبون فقط وإنما أيضاً لمعرفة لمحةٍ ولو بسيطة عن مالكي هذه الحسابات. كما أن الأداةَ فعالةٌ جداً في كشف الكذب حول البيانات الشخصية.

نُشرت هذه الدراسة في حزيران الماضي في (Information Processing & Management journal). كما يُشار إلى أنها أُجريت على وسائل التواصل الاجتماعي باللغة الأسبانية، ورغم ذلك يُمكن أن تُطبق على لغات أخرى.

المصدر:

هنا

مصدر البحث: هنا