المعلوماتية > علم البيانات

ماذا بعد البيانات الكبيرة؟

استمع على ساوندكلاود 🎧

عندما أطلق غارتنر"Gartner"، مركزُ الأبحاث الرائد في مجال تكنولوجيا المعلومات، تقريرَه الدوري للتكنولوجيات الناشئة في عام 2014، كان من المثير للاهتمام ملاحظةُ أن البياناتِ الكبيرةَ كانت موجودةً ضمن المنحنى الخاص بالتوقعات المتضخمة، في حين كان ما يُطلق عليه إنترنت الأشياء (Internet of Things) متربعاُ في أعلى المنحنى، ولكن لماذا؟

أولاً: يُعدُّ إنترنت الأشياء مجالًا أحدث من البيانات الكبيرة، وما زال قابلاً للبحث بشكل أوسع من البيانات الكبيرة. (يمكنك قراءة مقال عن إنترنت الأشياء من هنا: هنا )

ثانياً: يعتقدُ الجميع أن البياناتِ التي سيتم توليدُها من قبل إنترنت الأشياء ستكون مثيرةً للإعجاب بشكل أكبر من مجموعات البيانات الكبيرة الموجودة الآن.

ثالثاً: يعدُّ جمعُ البيانات تحديًّا كبيرًا بحد ذاته، ولكن تحليل واستخلاص المعلومات من هذه البيانات هو شيء آخر تماماً، وهو اختصاصٌ يدعى بعلم البيانات (Data Science).

تعّرف البيانات الكبيرة باختصار بالكمية الهائلة من المعلومات والبيانات والتي تتطلّب تقنياتٍ خاصة للتخزين والبحث والتحليل.

كم هي كمية البيانات التي نتكلم عنها هنا؟ تتفاوت التقديراتُ على نحو كبير، ولكن هواة البيانات الكبيرة يتكلمون عن تخزين هذه البيانات باستخدام وحدة (Brontobytes)، وهو مصطلحٌ يبدو مأخوذًا من اسم أحد الديناصورات والذي يُدعى "Brontosaurus"، وهو أحدُ أكبر المخلوقات التي تواجدت على سطح الأرض، مما يدلُّ على أننا نتعامل مع أرقام أكبر من الموجودة. فهذه الوحدة الجديدة تعبرُ عن 1000 يوتابايت (Yottabytes). بفرض لدينا التيرابايت الذي يمثل المساحةَ التخزينية لقرص صلب في يومنا الحالي، بالتالي نحتاج إلى ألف ترليون قرصٍ منهم لتخزين واحد برونتوبايت. ولكن من أجل المصداقية، فهناك وحدةٌ أكبر مُستخدمة من قبل المختصين في هذا المجال وهي جيوب بايت (geopbytes) وتمثّلُ 1000 برونتوبايت. وكما تم استخدامُ مصطلح هيلابايت (hellabytes) وهو ما يمثل الكثيرَ الكثير من البيانات.

الخلافات حول مجموعات البيانات من حجم بيتا بايت (البيتا هو 1000 تيرا) وبحيرات البيانات data) lakes)* هي مهمة الاختصاصيين، لذلك نرى الآن أنه حتى المسميات الوظيفية قد اختلفت بالنسبة للذين يعملون في هذا المجال؛ فمثلاً نرى عناوينَ مثل: شركة تبحث عن مهندس بيانات (متخصص في بناء نماذج البيانات)، أمناء ومشرفي البيانات (والذين يديرون مصادر البيانات)، منمذجي البيانات (الذين يحولون البيانات إلى نماذج مرئية)، مستكشفي البيانات (الذين يغيرون طريقةَ عمل الشركات على أساس تحليل بيانات الشركة نفسها).

لم تعد البياناتُ الضخمة حِكراً على الاختصاصيين في هذا المجال بل توسّعت إلى مجالات أخرى، فنرى اليوم مثلاً نوعًا جديدًا من الصحافة يستخدمُ الإحصاءات والبرمجة والبيانات الرقمية وأدوات أخرى لإنتاج القصص الإخبارية. وتشكّل صحافةُ البيانات أو الصحافةُ التي تعتمد على البيانات مثالًا على ممارسة الصحافة وإنشاء التقارير بمساعدة الحاسوب.

أما الآن بالنسبة لكل من الاختصاصيين وحتى الهواة، لم يعُدِ الهوس هو التعامل مع البيانات الكبيرة فقط، لدينا حاليا ما يُدعى بالبيانات السميكة (thick data)، والتي تجمع بين التحليل الكمي والنوعي، والبيانات الطويلة (long data)، وهي البيانات القديمة التي تمتد إلى مئات السنين الماضية، والبيانات الساخنة hot) data) والتي يتمُّ استخدامُها بكثرة بالتالي يجب الوصول إليها بسرعة وسهولة، والبيانات الباردة والتي تستخدم بشكل قليل نسبياً.

في الثمانينات، كانت الفكرة آنذاك هي محو الأمية الثقافية، لكن ربما نحن الآن بحاجة لمحو الأمية المتعلقة بالبيانات الكبيرة. ليس بالضرورة أن تصبحَ خبيراً في تحليل البيانات الكبيرة، ولكن على الأقل أن تكون مدركًا كيف أن أعمالَنا اليومية تساهم في إنتاج البيانات الكبيرة وما الأثر الذي تتركه على التعلم وعلى خصوصيتنا وأمننا.

حاشية المحتوى:

بحيرات البيانات (data lakes): هي البيانات المخزنة والتي يمكنُ الوصول إليها وهي في حالتها الأولية، أي في مرحلة ما قبل المعالجة.

المصدر:

هنا