المعلوماتية الحيوية - مقدّمة
المعلوماتية >>>> المعلوماتية الحيوية
هذا بالضّبطِ ما يقومُ به المعلوماتيّون، معالجةُ البياناتِ لاستنتاجِ المعلوماتِ المُفيدةِ. إلّا أنّهُ لكثرةِ مصادرِ هذهِ البياناتِ وتنوّعها كان لا بدّ من الفصلِ وتشكيلِ أقسامٍ مُختلفةٍ للتّعاملِ مع كلِّ مصدرٍ على حدىً، ومن هُنا ظَهَرَ مجالُ المعلوماتيّةِ الحيويّةِ الّذي يتمُّ فيهِ مُعالجةُ البياناتِ الحيويّةِ والبيولوجيّةِ والطّبيّةِ للوصولِ إلى نتائجَ ذاتِ فائدةٍ.
ماذا يتضمّنُ هذا المجالُ؟
يتركّزُ عملُ معلوماتيّي الحيويّة بنسبةٍ كبيرةٍ على الجينومِ البشريِّ، أي المعلوماتِ الوراثيّةِ الموجودةِ في الخلايا، وهي الّتي تُحدِّدُ صفاتِ الكائناتِ الحيّةِ. تتكوّنُ المادةَ الوراثيّةَ من وحداتٍ بنائيّةٍ هي النّكليوتيداتِ، ويتكوّنُ كلُّ نكليوتيد من سكرٍ خُماسيِّ الكربون وجزيءُ فوسفاتٍ وواحدٌ من أربعةِ أسسٍ آزوتيّةٍ (الأدينين Aأو الغوانين G أو السّيتوزين C أو التّايمين T)، لهذا يتمُّ دوماً تمثيلُ سلاسل الـ "DNA" بهذه الحروفِ الأربعة.
يقومُ معلوماتيو الحيويّة بكتابةِ خوارزميّاتٍ وبرامجَ للحصولِ على معلوماتٍ مُفيدةٍ من البياناتِ الجينيّةِ، وتتمثَّلُ أهمُّ هذه الأفكار بسَلسَلةِ المُتتالياتِ الجينيّةِ Sequence Assembly، وهي عبارةٌ عن معرفةِ التّرتيبِ الصّحيحِ للجينومِ. سنتطرق في نهاية السلسلة إلى أهم الطرق لتمثيل القطع التي نملكها و كيفية الحصول على الترتيب الصحيح لها.
لكن ألا يمكنُ الحصولَ عليه كاملاً من الخليّة؟
في الحقيقةِ من الصّعبِ الحصولُ على الجينومِ الكاملِ بالتّكنولوجيا المُتاحة، بل تتمُّ قراءةُ قطعٍ مُجزّأةٍ من الجينومِ وبعدها يُعادُ ترتيبها لتُشكِّلَ الجينومَ الكاملَ، يتمّ هذا باستخدامِ خوارزميّاتِ المعلوماتيّةِ الحيويّةِ. لنُشاهدِ المثالَ التّالي لِفهمِ العمليّة:
إن كان لدينا الجينومُ التّالي المُكوّنُ من العديدِ من القِطَعِ المُجزّأةِ والمُتكرّرةِ في بعضِ الأحيانِ، كيف نستخدِمُها للحصولِ على السّلسلةِ الأصليّةِ؟
AGGCT، CTAGAGT، GCTAGA، GTAG، TGGTAG،
راقبِ الآليّة:
Image: syr-res.com
أي أنَ السّلسلةَ الأصليّةَ هي: TGGTAGGCTAGAGTAC
تمكنّا عبرَ ترتيبِ القِطعِ الموجودةِ من الوصولِ إلى السّلسلةِ الأصليّة، وهذا ما تقومُ به خوارزميّات المعلوماتيّةِ الحيويّةِ لكنّها تعملُ على نطاقٍ أوسعَ وأسرعَ، إذ أنَّ البياناتِ الموجودةِ تكونُ كبيرةً للغايةِ وتستغرِقُ وقتاً طويلاً إن قمنا باستخدامِ الطُّرُقِ التّقليديّةِ كالّتي اعتمدنَا عليها هُنا. سنقومُ خَلالَ هذهِ السّلسلةِ باستعرَاضِ بعضِ الخوارزميّاتِ والطُّرُقِ المُميّزةِ لجعلِ الآليّةِ أكثرَ سُرعةً وَكفاءةً!
في الحالةِ السّابقةِ كُنّا نعلمُ أنّ جميعَ القِطَعِ المُوجودةِ تنتمي لهذا الجينومِ، لكن ماذا لو كانَ لدينا قطعةً مُجهولةَ المصدرِ؟
عندها يجبُ البحثُ عن الجينومِ الّذي تنتمي إليه. للوهلةِ الأولى يبدو الأمرَ سهلاً، فلو كان لدينا السّلسلة ATGT ونُريدُ البحثَ عنها في المصدرِ التّالي:
GTGAATGTCTAG
يمكنُ أن نقومَ بمقارنةِ السّلسلةِ معَ المصدرِ كما يلي:
Image: syr-res.com
تمّ إيجادُ السّلسلة في المِصدر !
لكن ماذا لو كانَ طولُ السّلسلةِ يبلغُ بضعَ آلافٍ؟ والمصدرُ بضعَ ملايين؟
تبدو المهمّةُ صعبةً عندئذٍ، لكنّنا سنتعرّفُ خلالَ هذه السّلسلةِ على أهمِّ الخوارزميّاتِ المُستخدمةِ والّتي تُدعى بخوارزميّاتِ مقارنَةِ النّماذجَ Pattern Matching Algorithms. سنتطرّقُ كذلكَ إلى خوارزميّاتِ مُقارنةِ النّماذجَ التّقريبيّةَ، وهذا يعني ألّا نبحثَ عن السّلسلةِ ATGT فقط بل كافةِ الاحتمالاتِ المُمكنةِ في حالِ تغيّرَ فيها نكليوتيدٌ واحدٌ مثلاً ATTT أو GTGT وهكذا.
ثمَّ يتمُّ تعريفُ الجيناتِ الموجودةِ ووظائفها وهو ما يُسمّى بتذييلِ الجينومِ (Genome Annotation) أي وضعُ ذيلِ(حاشيّةٍ) للجينومِ تُساعدُ في قراءتِهِ وفَهمِهِ. إنَّ كلَّ جينٍ(مورّثَةٍ) موجودٍ ضمنَ الجينومِ يتمُّ ترجمتُهُ إلى بروتينٍ ذي وظيفةٍ مُعيّنَةٍ، لتُعطينا صفاتِنا، وقد يتغيّرُ التّعبيرُ عن هذه الجيناتِ أحياناً، إذ يتمُّ تنظيمُ عملِهَا عبرَ آليّاتٍ وعوامِلَ في الجِسمِ لذلكَ تتضمَّنُ المعلوماتيّةُ الحيويّةُ كذلكَ تحليلَ تعبيريّةِ الجيناتِ Gene Expression Analysis وتحليلَ تنظيمِها Regulation Analysis.
وبعد أن يتمَّ ترجمةُ الجيناتِ إلى بروتيناتٍ مُتعدّدةِ الوظائفَ، تتمُّ دراسةُ هذهِ البروتيناتِ لفهمِ تركيبِها وتفاعُلِها مع بعضِها البعض، هل يمكنك التّفكيرُ في طريقةٍ جيّدةٍ لتمثيلِ هذه الشّبكاتِ من البروتيناتِ في الحواسيبِ بشكلٍ يُسهّلُ تحليلَها؟
يمكننا استخدامُ الرّسومِ البيانيّةِ أو المبيانات Graphs!
و هي عبارةٌ عن مجموعةٍ من العُقَدِ Nodes، يصلُ بينَها مجموعةٌ من الحوافِ Edges كما في الشّكلِ التّالي:
Image: http://www.cpmponline.org/parentresource/images/c1u4sumgraph1.jpg
سنتعرّفُ خلالَ هذه السّلسلةِ على طُرُقِ تمثيلِ الشّبكاتِ البروتينيّةِ باستخدامِ المعلوماتيّةِ الحيويّةِ وأهمَّ الخوارزميّاتِ المُستخدَمَةِ في هذا المجالِ.
كانت هذهِ جولةً سريعةً للمرورِ على أهمِّ الأفكارِ الّتي سنتحدَّثُ عنها في المقالاتِ القادِمَةِ حولَ المعلوماتيّةِ الحيويّةِ!
--------------------------------------------------------------------------------
المصادر:
هنا
هنا