SciDB؛ نظام علائقي يسرّع الدراسات القائمة على البيانات
المعلوماتية >>>> علم البيانات
يُجري الباحثون في أنحاء العالم العديد من الأبحاث يوميًّا، وعادةً ما تستدعي هذه الأبحاث التعامل مع كميات هائلة من البيانات، ولكن؛ مع ازدياد تنوع الحقول العلمية لهذه البيانات وتشعُّبها، أمسى استخلاص نتائج ذات معنى مشكلةً حقيقية؛ إذ إنها تنطوي على تجميع أنواع مختلفة من هذه البيانات، ثم معالجتها على عدة مستويات، فعلى سبيل المثال؛ تقسّم الأقمار الصناعية سطحَ الأرض إلى مربعات كبيرة افتراضية، ثم يتتبع نظام تحديد المواقع العالمي GPS) Global Positioning System) حركة الشخص عبر هذه المربعات مع الزمن، وتتضمن هذه العملية قياسات رأسية وأفقية وزمنية لا يمكن تجميعها وتحليلها بسهولة في أنظمة قواعد البيانات العلائقية (القائمة على العلاقات بين الكيانات الممثّلة بالجداول)، إضافة إلى أنها تستغرق زمنًا لا بأس به عند المعالجة، ومن ثم تسبب تأخر الأبحاث المجراة، لكنّ شركة Paradigm 4 قد حلت هذه المشكلة. (1،3)، وقد وضع المؤسسون نظامَ إدارة قاعدة البيانات بوصفه محركًا حاسوبيًّا للبيانات العلمية، وأطلقوا عليه اسم SciDB، كذلك طوروا نظامًا أساسيًّا للتحليل سمّوه محرك اكتشاف REVEAL يضيف Stonebraker: "تجري أنظمة قواعد المعطيات العلائقية عملياتِ مسح أفقية أو شاقولية على البيانات، ولذلك نحن بحاجة إلى نظام ينجز كلا النوعين معًا، ويتطلب هذا وجودَ مدير تخزين أسفل النظام قادر على التحرك أفقيًّا وشاقوليًّا ضمن تجمُّع هائل من البيانات في آن واحد، وهذا بالضبط ما يفعله نظام Paradigm4". الرؤية المستقبلية
تعريف نظام SciDB
هو نظام إدارة قواعد بيانات ACID
(Atomicity، Consistency، Isolation، Durability) طوّرته شركة Paradigm
(4-1) بالتعاون مع العالم "ستونبريكر Stonebraker" الحائز جائزة "Turing"
(1،2)، ويسمح هذا النظام بإدارة المعطيات المتعددة الأبعاد بهدف تسريع عمليات البحث والتحليل في التطبيقات العلمية والجغرافية والمالية والصناعية (5-1).
النشأة والتطوير
يعود الفضل إلى العالم Stonebraker الذي كان رائدًا في مجال أنظمة إدارة قواعد البيانات على مدى عقود (1،2)، فقد تلقى Stonebraker عديدًا من الشكاوى من زملائه العلماء فيما يخص بطء عمليات البحث في نظم إدارة قواعد البيانات العلائقية، وذلك عند التعامل مع مجموعات من البيانات العلمية المعقدة (1).
طوّر Stonebraker في عام 2008 نظامًا جديدًا لإدارة قواعد البيانات في معهد ماساتشوستس MIT للتكنولوجيا؛ إذ ابتكر فكرة تخزين البيانات في مصفوفات متعددة الأبعاد؛ مما سمح بتطبيق عمليات الجبر الخطي التحليلية، بما في ذلك العديد من أشكال التعلم الآلي ومعالجة البيانات الإحصائية، وذلك على مجموعات من البيانات الضخمة بطرائق جديدة (1).
وفي عام 2010، قرر Stonebraker تحويل المشروع إلى شركة، فأسس مع رجل الأعمال الناجح "ماريلين ماتز Marilyn Matz" شركةَ Paradigm 4
(1،2،4).
بنية النظام
Image: syr-res
(5) نظام إدارة قواعد بيانات المصفوفة SciDB
ميزات النظام
1- بنية معالجة موزّعة تعمل على التوازي MPP (Massively Parallel Processing).
2- إمكانية تخزين عدد هائل من البيانات وتحليلها دون التقيد بقيود الذاكرة، وذلك عن طريق إضافة عقد من الـ Commodity Hardware
2،5)).
3- سرعة في عمليات البحث والتحليل (5).
4- دعم الاستخدام المتزامن وعمليات القراءة والكتابة باستخدام تقنية ACID؛ إذ تضمن هذه التقنية ذرية (وحدة) المناقلات (Atomicity)، واتساقية المعطيات للمستخدمين جميعهم، وكذلك عزلتها (Isolation) ومصونيتها (Durability)
(5).
5- إمكانية استخدام لغات برمجة عالية المستوى مثل Python وR؛ مما يسرّع عمليات المعالجة بأقل تكلفة في قاعدة البيانات (5).
يقول Matz: "إذا استطاع الباحثون إجراء تحليلات معقدة -تحتاج عادةً إلى عدة أيام لتنفيذها- في غضون دقائق فقط، فسيؤثر ذلك على نحو كبير في عدد الأسئلة الصعبة التي يمكن طرحها والإجابة عنها، وهذا هو عامل القوة الذي سيغير سرعة الأبحاث اليومية" (1).
المصادر:
2- REVEAL Single Cell Analysis Force Multiplier Transforming Research Daily [Internet]. Paradigm4. [cited 21 April 2020]. Available from: هنا
3- SciDB [Internet]. Paradigm4. 2020 [cited 21 April 2020]. Available from: هنا
4- REVEAL/GENOMICS API for SciDB [Internet]. paradigm4.github.io. [cited 21 April 2020]. Available from: هنا
5- SciDB—the array database management system [Internet]. Paradigm4. [cited 25 April 2020]. Available from: هنا