خوارزمية تحدد التغريدات المرسلة تحت تأثير الكحول
المعلوماتية >>>> عام
يستند حسين وشركاؤه في العمل على اكتشافين، الأول هو وسيلة لتدريب خوارزمية لتعلم الآلة لرصد التغريدات التي تتعلق بالكحول وتلك التي كتبها الناس أثناء شرب الكحول، والثاني هو طريقة للعثور على المكان الرئيسي لمستخدم تويتر مع دقة أكبر بكثير مما كانت عليه في أي وقت ممكن، وبالتالي تحديد ما إذا كان المستخدم يشرب في المنزل أم لا.
بدأ الفريق من خلال جمع التويتات المضاف إليها وسوم "tags" جغرافية والتي كتبت على مدى العام وحتى تموز 2014 من مدينة نيويورك ومن مقاطعة مونرو Monroe على الحدود الشمالية للدولة، والتي تضم مدينة روتشستر. ثم قاموا باختيار كل تغريدة ذكرت بها كلمة كحول أو الكلمات ذات الصلة بالكحول، مثل في حالة سكر أو البيرة أو حفلة أو سهرة....
استعملوا بعد ذلك خدمة التعهيد الجماعي "crowdsourcing" المقدمة من Amazon’s Mechanical Turk لتحليل التغريدات بمزيد من التفاصيل، وذلك من خلال إدخال البيانات من عينة عشوائية، أو غير محددة، من المستخدمين أو العملاء. ليس فقط لعدم تحيز هذه هذه الجماهير لنتيجة واحدة بذاتها، ولكن أيضاً لإدخالهم لتجاربهم الشخصية المتصلة بالغرض الرئيسي من المعلومات، مما يعد مفيدًا للغاية الرئيسية.
طلبوا الإجابة عن ثلاثة أسئلة لكل تغريدة، أولاً هل التغريدة تشير إلى الكحول؟ وإذا كان الأمر كذلك هل تشير إلى شرب المغرد للكحول؟ وأخيراً، هل تم إرسال التغريدة في نفس الوقت الذي يشرب فيه المغرد الكحول؟
وشملت هذه العملية 11000 تغريدة مرتبطة بالكحول ومحددة جغرافياً، وهذه بيانات كبيرة بما يكفي لتدريب خوارزمية تعلم الآلة لرصد التغريدات المتعلقة بالكحول وأماكنها. مما أدى بهم إلى السؤال التالي: أين يكون هؤلاء الناس وهم يغردون عن الشرب؟ وعلى وجه الخصوص، هل هم في المنزل أو في مكان آخر؟
استنبط الباحثون أساليب مختلفة لمعرفة إذا كان الناس خارج المنزل، باستخدام التغريدات محدَّدة الموقع الجغرافي. وتشمل هذه الأساليب اختيار المكان الذي يغردون منه معظم الوقت، أو اختيار المكان الذي ترسل منه التغريدة الأخيرة في اليوم، أو المكان الذي يغردون منه بين الساعة الواحدة بعد منتصف الليل والساعة السادسة صباحاً ولكن جميع هذه الطرق لها نقاط ضعف تجعلها من الصعب الاعتماد عليها. لذلك وضع حسين وزملاءه نهج آخر، باستخدام قائمة من الكلمات والعبارات التي يُحتمل أن يستخدمها الناس في التغريدات المرسلة من منازلهم، مثل "أخيرا في المنزل!" أو حمام أو أريكة أو تلفزيون... قاموا بفلترة التغريدات المحددة جغرافياً والتي تحتوي على هذه الكلمات.
سمّى حسين وزملاؤه هذه التغريدات مجموعة بيانات الحقيقة الأساسية لموقع المنزل واستخدموها لتدريب خوارزمية تعلم الآلة لتحديد الأنماط الأخرى المرتبطة بالتغريدات المنزلية. بدأت الخوارزمية برؤية كيف يرتبط موقع المنزل مع المؤشرات الأخرى مثل موقع التغريدة الأخيرة في اليوم، والموقع الأكثر شعبية للتغريدات، ونسبة التغريدات من موقع معين..إلخ
يحسن الاعتماد على عدة مؤشرات لتحديد موقع المنزل من دقة هذا النهج بشكل كبير، مقارنةً باستخدام مؤشر واحد. وبحسب حسين وزملاءه فقد توصلوا لتحديد موقع المنزل على بعد 100 متر مع دقة تصل إلى 80 في المئة.
سمحت هذه التقنيتان معاً للفريق بالعمل على معرفة متى وأين يشرب الناس. واستخدموا ذلك لمقارنة أنماط الشرب في مدينة نيويورك وفي منطقة ضاحية مقاطعة مونرو. وذلك عن طريق تقسيم كل المنطقة إلى شبكات مساحة كل منها 100 متر مربع وتحديد المناطق التي توجد فيها تغريدات مرتبطة بالكحول. والتي تتيح لهم وضع ومقارنة "خرائط الحرارة" لتعاطي الكحول لكل منطقة.
كما تميز تغريدات الشرب من موقع المنزل عن تلك التي تكون في أماكن أخرى. وترسم وسائل بيع المشروبات الكحولية في كل منطقة. والتي تسمح للباحثين للتحقق من العلاقة بين كثافة التغريدات المرسلة في حالة سكر من مختلف المناطق، وكثافة محلات تقديم الكحول.
Image: https://www.technologyreview.com/s/601276/5-things-you-need-to-know-about-facebooks-next-10-years/
خرائط الحرارة وهي عبارة عن تمثيل رسومي للبيانات حيث يتم تمثيل القيم الفردية الواردة في مصفوفة من الألوان.
وكانت النتائج مثيرة للاهتمام! أولاً، يشير حسين وزملاؤه إلى أن نسبة التغريدات التي ترتبط مع الكحول في مدينة نيويورك هي أعلى مما هي عليه في مقاطعة مونرو وبحسب رأيهم فإن أحد التفسيرات المحتملة هو أن المدن المزدحمة مثل مدينة نيويورك فيها محلات لتقديم الكحول أكثر بالإضافة إلى الاختلافات الكبيرة في النشأة الاجتماعية للسكان لذلك من المرجح أن لديها معدل أعلى للشرب. وغير ذلك، فإن بيانات تحديد الموقع الجغرافي تكشف أن نسبة الناس الذين يشربون في المنزل (أو على بعد 100 متر من المنزل) في مدينة نيويورك أعلى منها من في مقاطعة مونرو، حيث تشرب نسبة عالية من الناس هناك على بعد أكثر من كيلومتر عن المنزل.
خرائط الحرارة تكشف أيضاً عن أنماط مثيرة للاهتمام فهي تتيح للفريق تحديد شبكات بمساحة 100 × 100 متر والتي تحوي على الأقل خمسة تغريدات عن الكحول، وهم يعتقدون أن هذه الشبكات هي مناطق لأنشطة الشرب غير العادية.
ووجد الباحثون أيضاً وجود علاقة بين كثافة محلات تقديم الكحول في المنطقة وعدد التغريدات التي تشير إلى أن هناك من يشرب الآن. وهذا يثير مسألة مهمة حول وعلاقة السببية والارتباط في هذه الحالة. هل الكثافة العالية لمحلات تقديم الكحول تدفع الناس للشرب أكثر؟ أم أن الأشخاص الذين يشربون يتدفقون على المناطق ذات الكثافة العالية لمحلات تقديم الكحول؟ بالطبع، هذا النوع من البيانات في حد ذاته لا يمكنه الإجابة على هذا التساؤل.
ومع ذلك، فإن أهمية هذه التقنية هي أنها رخيصة وسريعة. على عكس الوسائل العملية الأخرى المستخدمة للحصول على نظرة مماثلة لأنماط الشرب فهي مكلفة وتستغرق وقتاً طويلاً للغاية، فعادةً ما تحتاج عملية كهذه لناس مختارين بعناية، لتعبئة استمارات ليتم تحليلها بالتفصيل. بالإضافة إلى أن منهجية تعلم الآلة يمكنها مراقبة الأنشطة في الزمن الحقيقي. ولكن هناك مخاطر لهذه المنهجية بطبيعة الحال. فهناك تحيز واضح في البيانات التي تم جمعها من تويتر بسبب ارتفاع معدل تمثيل الشباب وبعض الأقليات عليه. لكن التحيزات المماثلة موجودة في غيرها من طرق جمع البيانات، على سبيل المثال، فالدراسات الاستقصائية فيها نقص بالناس الذين لا يريدون ملء الاستبيانات. تحديد التحيز والتعامل معه هو جزء مهم من جميع أساليب جمع البيانات.
لدى حسين وزملاؤه خطط كبيرة لتقنيتهم فهم يريدون في المستقبل دراسة كيف يختلف استهلاك الكحول مع التقدم في العمر، والجنس، والعرق.... وكيفية تأثير الظروف المختلفة، مثل بيوت الأصدقاء، الملاعب، الحدائق .... ومقارنة معدل تدفق شاربي الكحول من وإلى الأحياء المجاورة، وكذلك سيحاولون الاستفادة من الجانب الاجتماعي لتويتر حيث سيساعدهم على استكشاف الشبكة الاجتماعية لشاربي الكحول لمعرفة كيفية تأثير التفاعلات الاجتماعية على الميل إلى الرجوع للشرب.
كل هذا يمكن أن يساعد في إثراء النقاش حول الجوانب المتعلقة بالصحة والكحول، فهي ثالث أكبر سبب للوفاة يمكن منعه في الولايات المتحدة، فهنالك 75000 حالة وفاة يسببها الكحول كل عام!
المصادر:
هنا