علماء الرياضيات يطورون مؤشرًا إحصائيًّا جديدًا
الرياضيات >>>> الرياضيات
دعني أشرح لك: إن ارتفاع درجة الحرارة وزيادة استهلاك الآيس كريم يمكن أن نعتبرهما متغيرين إحصائيين يوجد بينهما تبعيّة خطية، أو يمكن القول إنهما مرتبطان.
مفهوم التبعية في الإحصاء مهمٌ إذا أردنا أن نتوقع السلوك المستقبلي للمتغيرات. وهذه التوقعات العلمية تُطلب بشدة في كثير من المجالات، مثلًا لتوقع نتائج مباريات كرة القدم أو لتوقع نتائج الانتخابات ولمعرفة إمكانية انتشار وباءٍ أو انحساره وحتى في التوقعات الجوية.
ولقياس التبعية الخطية، يستخدم العلماء مصطلح "معامل الارتباط" والذي قدمه أول مرة عام 1870م عالم الأحياء البريطاني السّير فرانسيس جالتون-Francis Galton والذي عاش بين عامي (1822م – 1911 م). وبعدها بفترة قصيرة، قدم عالم الرياضيات البريطاني (كارل بيرسون – Karl Pearson) تفسيرًا رياضيًّا رسميًّا لمعامل الارتباط. ومن ثم، سمَّى علماء الرياضيات هذا المعامل مضروب بيرسون لعزوم الارتباط (= Pearson product-moment correlation) أو اختصارًا "ارتباط بيرسون".
ولكن إذا كانت العلاقة بين المتغيرات غير خطية؛ فإن معامل الارتباط لا يصلح لقياس مدى تبعية المتغيرات لبعضها.
يقول البروفيسور رينيه شيللينغ (René Schilling) أستاذ علم الاحتمالات بمعهد (دريسدن) التقني: "إلى الآن، تستهلك الحسابات – لاكتشاف التبعية بين المتغيرات - جهدًا حسابيًّا ضخمًا وخاصة إذا كانت المتغيرات متعددة الأبعاد، والعلاقات بينها مركبة وغير خطية. ولكننا الآن وجدنا طريقة فعالة وعملية لتنفيذ مثل هذه الحسابات".
وطوَّر د. شيللينغ ومساعدوه، من معهد (دريسدن) التقني للرياضيات العشوائية، مقياس ارتباط أسموه: "المسافة متعددة المتغيرات (= distance multivariance)". وقد نُشر تعريف هذا المقياس ونُشرت النظرية الرياضية الكامنة وراءه في المجلة الدولية الرائدة Annals of Statistics. وكان عنوان البحث:
"Distance Multivariance: New Dependence Measures for Random Vectors".
وشرح البروفيسور مارتن كيللر راسل-Martin Keller-Ressel أحد أعضاء الفريق المفهوم السابق على النحو الآتي: "لحساب قياس التبعية، يجب تسجيل قيم المتغيرات إضافةً إلى المسافات بينها، فنحصل على مصفوفة الأبعاد. باستخدام مصفوفة الأبعاد هذه نحصل على التباين المتعدد للمسافة. هذه الخطوة الوسيطة تسمح باكتشاف التبعيات المعقدة والتي لا يستطيع مقياس الارتباط الخطي حسابها لأنه ببساطة يتجاهلها. هذا وطريقتنا (المسافة متعددة المتغيرات) يمكن أن تطبق على المعلوماتية الحيوية (*) / علم الأحياء الحاسوبي، وتكون مجموعات البيانات الضخمة موجودة وتحتاج إلى تحليل".
وتابع الدكتور بيورن بوتشر- Björn Böttcher وهو عضو في الفريق أيضًا: "نحن نقدم جميع الدوال الضرورية في حزمة أسميناها "multivariance" في برنامج الإحصاء المجاني R، حتى تتمكن جميع الأطراف المهتمة من تجريب تطبيق مقياس التبعية الجديد".
(*) المعلوماتية الحيوية: هي تطبيق مفاهيم علم الإحصاء مع علم الأحياء باستخدام برامج الحاسوب.
المصدر:
هنا