البيانات الكبيرة: الحكاية من البداية (الجزء الثالث)
المعلوماتية >>>> علم البيانات
يوجد العديد من التقنيات لإدارة البيانات الكبيرة لكن أباتشي هادوب Apache Hadoop هي إحدى التقنيات التي أصبحت حديثَ البيانات الكبيرة.
Hadoop هي منصةٌ مفتوحةُ المصدر لتخزين ومعالجة أنواع البيانات المختلفة لتُمكِّنَ الشركات المُقادَة بالبيانات Data Driven Companies (التي هي منظماتٌ حيثُ لكلِّ شخصٍ ممن يمكنه استخدام البيانات لاتخاذ قرارات أفضل، سماحيةُ الحصول على البيانات التي يحتاجها في الوقت الذي يحتاجه، والتي تعطي بدورها صُنَّاع القرار في مجال الأعمال، القدرةَ على استكشاف البيانات باستقلالية) من استخلاص القيمة الكاملة لكل بياناتهم.
يقول عمرو عوض الله المؤسس المشارك والرئيس التنفيذي التقني في شركة Cloudera (المزوّد الرائد للخدمات والبرمجيات المعتمدة على Apache Hadoop) شارحاً تاريخ Hadoop:
"كان اثنان من المنشئين الأساسيين لـ Hadoop يعملان على مشروع Nutch ويريدان من خلاله بناءَ فهرسٍ كبيرٍ للويب، وقد اطّلعا على توثيقاتِ جوجل MapReduce وGFS -والتي هي شديدة الارتباط بالمشكلة التي كان مشروعهما يحاول حلها- لذلك قاما بتجميع معلومات المصدَرَين ووضعاها في Nutc، وشَكَّل لاحقاً هذان المكونان أصلَ مشروع Hadoop".
تُقدِّم Hadoop للمنظماتِ المرونةَ لطرحِ أيِّ سؤالٍ حول بياناتهم المُنظَّمة Structured وغير المُنظَّمة Unstructured التي كان من المستحيل طرحُها أو الإجابة عنها، وتُقدِّمُ لهم خدماتٍ كثيرة أيضاً.
إن نظام ملفات Hadoop الموزّع Hadoop Distributed File System (DHFS) هو نظامُ تخزينٍ لعنقود Hadoop، فعندما تأتي بياناتٌ جديدةٌ للعنقود، يقوم نظام الملفات بتجزيئِها ويوزّع هذه الأجزاء على الخوادم المختلفة المُشارِكَة في العنقود. يُخزِّنُ كلُّ خادمٍ جزءاً صغيراً من مجموعة البيانات الكُلِّيَّة، وينسَخُ كلَّ جزءٍ من البيانات على أكثرِ من خادمٍ واحد. وبما أن نظام الملفات هذا يُخزِّن البيانات الكُلّيّة بشكلِ أجزاءٍ صغيرة على مجموعةٍ من الخوادم، فإنَّ مهام التحليل تُوزَّع تفرُّعياً على كلِّ الخوادم التي تحتوي جزءاً من البيانات الكُلِّيَّة.
يُقَيِّم كلُّ خادمٍ قيمةَ جزءِ البيانات المُخزَّن عليه تزامنياً مع بقية الخوادم المشترِكَة بالبيانات الكُلِّيَّة، ويُقدِّمُ النتيجةَ ليتمَّ تجميعُها حتى نحصلَ على جوابٍ شاملٍ للسؤال المُرادِ طرحُهُ على مجموعةِ البيانات الكُلِّيَّة. ويتكفّلُ MapReduce بتوزيعِ العمل وإعادة جمع النتيجة.
صُمِّمَ كلٌّ من MapReduce وHadoop لمتابعة العمل في حالات مواجهة أيِّ فشلٍ في النظام. يقوم Hadoop بشكلٍ مستمرٍ بمراقبة البيانات المُخزَّنة في العنقود.
في حال أصبح أيٌّ من الخوادم غيرَ متاح، أو فَشِلَ محرك الأقراص، أو تَلِفت البيانات نتيجةَ مشاكلَ برمجيةٍ أو عَتادية، يقوم نظام ملفات HDFS تلقائياً باستعادة البياناتِ نفسِها من أحدِ الخوادم الأُخرى التي خُزِّنت عليها نسخةٌ احتياطيةٌ عند عملية التقسيم. وبالمثل عندما تكون عمليةُ تحليلٍ قيدَ العمل يقوم MapReduce بمراقبة التقدم على كلِّ الخوادم المُشارِكة بالعملية، وفي حالِ كان أحدُ هذه الخوادم بطيئاً في إعادة النتيجة أو فَشِل في إكمال مهمته، يقوم MapReduce فوراً بتوجيه خادمٍ آخر خُزِّنَ عليه نفسُ الجزء من البيانات المُخزَّنة على الأول لبدء العمل بدلاً عنه.
بالنتيجة ونظراً للطريقة التي يعمل بها HDFS وMapReduce، تُقدّم شركة Hadoop خوادمَ موثوقة، مُعالجةً للخطأ وقابلةً للتطوير لتخزين وتحليل البيانات بكلفةٍ منخفضة جداً.
Image: www.syr-res.com
بعد أن استعرضنا طريقة تعامل Hadoop مع البيانات الكبيرة، لنقارنْ بين الطرق القديمة والحديثة للتعامل مع البيانات عموماً.
اعتمدت الطريقة القديمة على مُكدّسٍ للبياناتِ وتحليلِها بطبقاتٍ مختلفة تَصِلُ البيانات، ويعملُ على عتادياتٍ مرتفعة السعر، بينما الطريقة الجديدة هي منصةٌ للبيانات والتحليل، تقومُ بمعالجة وتحليل البيانات في طبقةٍ واحدةٍ دون الحاجة لنقل البيانات، وباستخدام عتادياتٍ مُنخفضةِ الكلفة، وهذه نقلةٌ هائلة.
تقومُ الإجرائية الجديدة على مفهومين رئيسيين، الأول: تحتاج البيانات أن تُخزَّن ضمن نظامٍ تكونُ فيه العتادياتُ قابلةً للتطوير بشكلٍ غيرِ منتهٍ، بمعنىً آخر لا يجب أن تواجهَ العتادياتُ مُشكِلة عنقِ الزجاجة المتمثِّلة بانتظار البيانات ريثما يتم تخزينها، أي عندما لا تتمكنُ العتاديات من التعامل مع البيانات بالسرعة المناسبة، مما يسبب فتراتِ تأخيرٍ وربما تجمُّدُ أي توقُّفُ العتاد تماماً، أو أنَّ تدفُّقَ البياناتِ أكبرُ بكثيرٍ من قدرةِ العتاديات، مما يجعل العتاديات تبدو وكأنها لا تقومُ بأي وظيفة. والثاني: يجب أن تتم معالجة البيانات وتحويلها إلى ذكاءِ أعمالٍ قابلٍ للاستخدام، مما يُمكِّن الشركات والمنظمات من تكوينِ وجهةِ نظرٍ واضحةٍ عمّا تؤدّيه هذه العمليات وما هو الهدف الذي ستحققه.
في الطرق القديمة كان لدينا طبقات المكدّس وفي الجديدة لدينا منصةٌ أفقيةٌ للبيانات بشكلٍ أساسيّ، حيث يُخصص للبيانات مكانٌ محدّدٌ ولا يتم نقلها هنا وهناك، وهذا هو سرُّ تحليل البيانات الكبيرة.
ولا بُدَّ من الإشارة هنا إلى أنَّ تقنية المكدّسات قد تطورت بدورها أيضاً نظراً لوجود تقنياتٍ خاصّةٍ جديدةٍ واختراعاتٍ مفتوحة المصدر التي تُسهّل من تخزين وإدارة وتحليل البيانات.
أصبح التخزين والعتاديات في متناول اليد أكثرَ من ذي قبل، ولا زالت أسعارها تنخفض باستمرار مما يُتيح إنشاء بنىً تفرُّعيةً واعدةً أكثر وبشكلٍ هائل، وبالتالي وبينما يزداد حجمُ وتعقيدُ البيانات، فإنَّ قُدرَتَنا على التّعامل مع البيانات المُعقَّدة وغيرِ المُرتَّبة تزداد أيضاً.
وبما أننا نتحدث عن تقنياتِ إدارة البيانات الكبيرة واستخلاصِ معلوماتٍ مفيدة منها تُساعد في اتخاذ قرارات الأعمال، فإننا لا نستطيعُ إغفال الحوسبة السّحابية في هذا الصدد، مع أنه من المهم أن نتذكر دوماً أنَّ الحوسبة السَّحابية لم تكن نموذجاً ناجحاً للأعمال لدرجةِ تعميمِ استخدامِها على الشركاتِ لتُخزِّنَ بياناتِها الكبيرة. من ناحيةٍ أُخرى هناكَ الكثيرُ ممن يؤمنون أنَّ قطاعاتِ الصِّناعة المختلفة ستدرك قريباً أنَّ هناك الكثيرَ مما يمكن تحقيقه بالاعتماد على السحابة.
إنَّ القدرة على بناء منصاتٍ هائلةِ التدرج massively scalable platforms -هي منصّاتُ معالجةٍ منسَّقةٍ توزّع فيها مهماتِ برنامجٍ واحدٍ على أكثرَ من معالج، وتُخصّص لكلِّ معالجٍ ذاكرةٌ مستقلّة- حيثُ لديك خيارٌ باستمرارِ إضافةِ منتَجاتٍ وخدماتٍ جديدةٍ مقابل كلفة إضافيةٍ معدومة، ترفعُ القُدرةَ على بناءِ نماذجِ أعمالٍ لم تكُن ممكنةً فيما قبل، وهذا ما يُسمَّى بالثورة الصناعية التالية Next Industrial Revolution حيثُ الموادُ الخام هي البيانات، وحيث تُستبدل مصانع الصناعات المختلفة بمصانعَ بيانات، وهناك ثلاث نقاط تؤخذ بالاعتبار في هذا الصدد:
* لا تسموها سحابة: فكرة السحابة ليست بحقيقةِ أنها افتراضية لكن بنموذج الخدمة الذي تقدمه بتأمين توصيل البرمجيات و البيانات و/أو تحليلها، ولا يُهم كونُ هذا النموذجِ نموذجَ استضافةٍ خاصٍّ أو نموذجَ مشاركة عامة، ما يُهمُّ هو نموذج التوصيل وتقدير القيمة والاستهلاك.
* قبول صحة قضايا الأعمال: لا توجد نقطةٌ تضيء لنا القضايا حول الخصوصية والسرية والوصول وتوصيل المعلومات.
* إصلاح الثغرات التقنية الجوهرية: كلُّ شيءٍ بدءاً من القدرة على تشغيل التحليل ضمن بيئةٍ افتراضيةٍ للتأكّد من معالجة المعلومات وتحليل الوثوقية، كلها قضايا تحتاج حلولاً ويجب إصلاحها في الحوسبة السحابية.
لقيادة التحليل ستنتقل الشركات من مواقع المتأثرين إلى مواقع الفاعلين. وإنّ التوقعات ستصبح أكثرَ دقةً وذاتَ معنىً باستخدام كلِّ البيانات المُتاحة سواءً من مصادرَ داخليةٍ تقليديةٍ أو من مصادر خارجية غنيّة وجديدة، ولأن التحليل يعتمد على مصادرَ داخليةٍ وخارجيةٍ يُمكن للشّركات بناءُ ثقتِها وستنتج هذه الثقة في استخدام الرؤى التحليلية لتفعيل فعاليات الأعمال.
التجارة المعتمدة على الخوارزميات، وسلسلة العرض الأمثل، هي أمثلةٌ نمطيةٌ حيث خفضت التحليلات المتوقعة الكسور في الأعمال. نذكر من الصيحات الرائدة التي تشق طريقها إلى الطليعة في عالم الأعمال اليوم:
* محركات التوصيات المشابهة لتلك المستخدمة في أمازون التي تستخدم المشتريات السابقة وسلوك الشراء لاقتراح مشتريات جديدة.
* محركاتُ بصيرةِ المستخدمين التي تدمج تنوعاً كبيراً من المعلومات المتعلقة بالمستخدمين متضمنةً العاطفة والسلوك وحتى المشاعر. ستصبح هذه المحركات أساس الاستهداف الإعلاني للشركات لتوجيه الأفراد والشركات في الوقت المناسب لتكبير نفقاتهم قدر الإمكان.
* محركات التهيئة التي تحضّر العمليات المعقدة المترابطة والقرارات الكبيرة حتى يتقبلها الناس تدريجياً، على سبيل المثال: ما هي الاستراتيجيات ذات الإمكانات التنافسية التي يجب استخدامها في عملٍ عالمي والتي تأخذ بحسابها الضغوط السياسية، الاقتصادية، والتنافسية المختلفة.
نحن اليوم على عتبة تطبيق حلول التحليلات المتوقعة على مشاكل العالم الحقيقي والتي باستخدامها يمكننا إدراك حجم السوق بلا ريب والتي وصفها كتاب استراتيجية المحيط الأزرق Blue Ocean Strategy لتصبح التقنية في خدمة ذكاء الأعمال.
المصدر:
[1] Big Data، Big Analytics Emerging Business Intelligence and Analytic Trends for Today's Businesses (Wiley CIO)
[2]هنا