تردد مصطلح البيانات الكبيرة (Big Data) في أنحاء العالم بتواتر متزايد، ولا سيما في مجالات العمل والدراسة والأبحاث، فما المقصود بالبيانات الكبيرة؟
في عام 2005، بدأت البيانات التي يولدها المستخدمون بالتضخم على نحو ملحوظ ومتزايد تبعًا لانتشار مواقع التواصل الاجتماعي وخدمات الإنترنت المختلفة، إضافةً إلى ظهور إنترنت الأشياء (Internet of Things) والذكاء الصنعي (Artificial Intelligence) وتقنيات تعلم الآلة (Machine Learning)؛ إذ لم يعد بإمكان برامج معالجة البيانات التقليدية إدارتها (1).
وقد عُرِفت البيانات ذات البنية الضخمة والمعقدة والمتنوعة والتي تعاني صعوباتٍ في التخزين والتحليل والنمذجة بالبيانات الكبيرة (Big Data (2.
تميّزَ هذا النوع من البيانات بثلاثة أبعاد أساسية هي:
الحجم Volume: يشير إلى حجم البيانات ذات القيمة المطلوب معالجتها (1).
يقاس هذا البعد بالكمية الهائلة للمعاملات والأحداث، وغالبًا ما يتفاقم الحجم بسبب سمات البيانات. تستخدم عمليات التحليل عادةً مجموعات بيانات مصغرة تسمى "عينات Samples" لإنشاء النماذج التنبئية (3).
التنوع Variety: يشير إلى أنواع البيانات المتوفرة من بيانات نصية وصور وفيديو وغيرها (1). سابقًا؛ كانت البيانات وخاصة البيانات التشغيلية "منظمة Structured"؛ بمعنى أنه يمكن تخزينها في قاعدة البيانات بناءً على نوعها. أما مؤخرًا فقد أصبحت البيانات "غير منظمة Unstructured" على نحو متزايد؛ إذ انتشرت مصادر البيانات خارج التطبيقات التشغيلية، ومن هنا نشأت صعوبة تخزينها، ومن ثم معالجتها وتحليلها (3).
السرعة Velocity: تعني سرعة توليد البيانات وتجميعها واستيعابها ومعالجتها (1).
فرضت وتيرة العالم المتزايدة على الشركات معالجةَ البيانات في الزمن الحقيقي أو الاستجابة في الزمن الحقيقي تقريبًا، وقد يعني هذا أنّ البيانات تُعالَج على الفور أو في أثناء تدفقها لاتخاذ قرارات سريعة في الزمن الحقيقي (3).
وعلى الرغم من تطور تقنيات تحليل البيانات وتخزينها؛ لكنّ إدارة البيانات الكبيرة تُعدّ تحديًا مستمرًّا؛ إذ يتطلب تحليلها تكاملًا وتنظيمًا وموثوقية وقابلية للوصول والاستعلام (4).
فما آلية التعامل مع البيانات الكبيرة؟
الدمج Integrate: تًجمع البيانات من العديد من المصادر والتطبيقات المختلفة، ويتطلب الدمج إستراتيجيات وتقنيات جديدة للتعامل مع مجموعات البيانات الكبيرة على نطاق تيرابايت أو حتى بيتابايت، لأن آليات التعامل التقليدية مع البيانات ليست مناسبة للتعامل مع بيانات بهذا الحجم.
الإدارة Manage: تتطلب البيانات الكبيرة التخزين، ويمكن تخزينها بأي شكل تريده وتقديم متطلبات المعالجة المطلوبة ومحركات المعالجة الضرورية لمجموعات البيانات هذه على أساس الطلب. تختلف حلول تخزين البيانات الكبيرة، ولكن؛ عمومًا تكتسب السحابة (Cloud) شعبية تدريجية لأنها تدعم متطلبات الحوسبة الحالية، وتمكّنك من تدوير الموارد حسب الحاجة.
التحليل Analyze: يعد تحليل البيانات الصحيح البذرة لثمار الاستثمار في البيانات الكبيرة، وذلك بإنشاء نماذج بيانات باستخدام تعلم الآلة والذكاء الصنعي (1).
تساعد البيانات الكبيرة على نحو كبير في عمليات الاستنتاج والتنبؤ التي تساهم في تطور مجالات شتّى؛ منها المجالات التجارية والعلمية وتعلم الآلة وغيرها الكثير، ولربما يصبح علم البيانات الكبيرة صانع القرار المستقبلي (4)!
1. What Is Big Data? | Oracle [Internet]. Oracle.com. [cited 22 February 2021]. Available from: هنا 2. Sagiroglu S, Sinanc D. Big data: A review. International Conference on Collaboration Technologies and Systems (CTS) [Internet]. San Diego: IEEE Xplore; 2013 [cited 22 February 2021]. Available from: هنا 3. Minelli M, Chambers M, Dhiraj A. Big data, big analytics. 1st ed. Hoboken, NJ: John Wiley & Sons; 2013. p. 31-34. 4. Labrinidis A, V. Jagadish H. Challenges and opportunities with big data. Challenges and opportunities with big data [Internet]. Istanbul: VLDB Endowment; 2012 [cited 22 February 2021]. Available from: هنا