المعلوماتية > علم البيانات

البيانات الكبيرة: الحكاية من البداية (الجزء الرابع)

استمع على ساوندكلاود 🎧

كما رأينا في الجزء السابق، يُعتبر نظام ملفات هادوب الموزّعة HDFS هو النظام القياسي لتخزين البيانات الكبيرة، إذ يمكنه تخزين أيُّ نمطٍ من البيانات دون قيودٍ فيما يخص النّوعَ أو الحجم، والذي جعلَهُ شائعَ الاستخدام لهذه الدرجة هو عدمُ حاجةِ المستخدم لإجراء أيِّ إعداداتٍ قبل التخزين بعكسِ قواعد البيانات التقليدية، هناك عليك فهمُ نوعيّةِ البيانات التي عليك تخزينُها ثم تهيئةُ قاعدة البياناتِ بإنشاء مخطّطٍ يكونُ بمثابةِ برنامجِ عملٍ عن كيفيّة وضع البيانات ضمن جداول القاعدة. يتضمّنُ هذا المخطّطُ أيضاً قواعدَ عن البيانات المُخزَّنة، مثلاً ما هي الأعمدة التي ستُستخدم لإيجاد وفهرسة البيانات في جدول محدد.

الأمر في HDFS مختلفٌ تماماً فأنت لا تحتاجُ لإنشاءِ مخطّط، وإنما كلُّ ما عليكَ هو وضعُ البيانات في ملف، ويتولى إطارُ عمل MapReduce تجزئةَ الملف وتوزيعَه على الخوادم المختلفة كما مرَّ سابقاً باستخدام لغةِ برمجةٍ حسبَ الاختيار (تكون لغة JAVA عادة).

تتوفر عدةُ تقنيات حوسبة، إلا أنَّ منصات الحوسبة التفرعية هي المنصات الوحيدة الملائمة للتعامل مع سرعة وحجم البيانات المنتجة، منها ثلاث خيارات متاحة اليوم:

* العناقيد والشبكات Clusters & Grids.

* المعالجة التفرعية واسعة النطاق Massively parallel processing (MPP).

* الحوسبة ذات الأداء العالي High Performance Computing (HPC).

العناقيد والشبكات هي أنماطٌ للحوسبة حيث تُربط الخوادم مع بعضها لتشكِّلَ شبكةً لتوزيع الأعمال. يُمكنُ لبيئاتِ العناقيد أو الشبكة أن تكونَ بيئاتٍ عتاديّةً سلعيّةً إما متجانسةً Homogeneous أو غيرَ متجانسة Heterogeneous. يميل الناس لاستخدام طُرُق الشبكات أو العناقيد لأنَّ التكلفة الإجمالية الملموسة للمُلكيّة ضئيلة طالما أنهم يستطيعون شراء عتادياتٍ وتجميعَها مع بعضها.

البيئةُ السَّحابيةُ العامّة مختلفةٌ عن العناقيد والشبكات، وقد أصبحت شائعةً لعدة أسباب، منها أنّها مَرِنة؛ ما يعني أنَّ المستخدم يدفع حسب نموه/انكماشه أو يدفع فقط حسب مساحة التخزين/المعالجة التي يحتاجها اليوم، وحسبما تحتاج بياناته من ناحيتي النقصان والزيادة.

الجانب السلبي للبيئة السّحابية بالنسبة للبيانات الكبيرة هو أنّ الوقت الذي تستغرقه للوصول إلى البيانات من السحابة يكون أطول، وهذا ما يمكن أن يكون غيرَ مقبولٍ لمتطلبات الأعمال المحددة.

السحابات الخاصة هي شبكاتٌ داخلية ضمن منظّمات وتكون عبارةً عن بيئةٍ تشاركية، حيث تتشارك عدة وحداتِ أعمالٍ البنيةَ التحتيةَ والدعمَ الخاصَّين بالبيانات الكبيرة.

أما منصات المعالجة التفرعية واسعةُ النطاق فهي بشكلٍ أساسيٍّ شبكةٌ ضمن صندوقٍ تدمجُ التخزين والذاكرة والحوسبة لتشكيل المنصة، حيث تُصمَّم الشبكة التي تربط التخزين بالحوسبة لتنتجَ خرجاً أمثلياً، وتذهب لأبعدَ من ذلك، فهي تصمم برمجياتٍ مخصصة لمنصات MPP التي تتيح إيصال سعة التخزين وإمكانيات المعالجة لجهاز MPP إلى أقصى ما يمكن. تُستخدم هذه المنصات من أجل حالات الاستخدام ذات القيمة العالية المعروفة، ومن الأمثلة على هذه المنصات EMC Greenplum وParAccel.

الخيارُ التالي هو حوسبة الأداء العالي HPC المصمَّمة لعمليات معالجة الفاصلة العائمة عالية السرعة، تُنجَز معظم الحسابات في الذاكرة، الأمرُ الذي يجعل الأداء الحسابي أسرعَ ما يمكن. تُعد IBM Blue Gene من الأمثلة على بيئات HPC، إذ تُستخدَم هذه البيئات من قِبَل المنظّمات البحثية ووحداتِ الأعمال التي تتطلّبُ تَدَرُّجيَّةً عاليةً جداً وأداءً حسابياً، إذ تكون القيمة المنتجة ضخمةً واستراتيجية ولا تكون الكلفة هي العامل الأهم. تستخدم هذه البيئات لتطبيقاتٍ متخصصة وتتيح بيئةً برمجيةً لتطوير تطبيقات مخصصة.

المصدر

Big Data، Big Analytics Emerging Business Intelligence and Analytic Trends for Today's Businesses (Wiley CIO)2012