التنبؤ ببنية البروتين الثلاثية الأبعاد
المعلوماتية >>>> المعلوماتية الحيوية
ولكن؛ تمثَّلَ التحدي الرئيس في مشكلة طيّ البروتين في أنّ عدد الطرائق التي يمكن أن ينثني بها البروتين نظريًّا قبل الاستقرار في هيكله الثلاثي الأبعاد النهائي هو عدد فلكي، ومن ثم سيستغرق تعداد جميع التكوينات الممكنة لبروتين نموذجي وقتًا أطول من عمر الكون المعروف، وعلى الرغم من ذلك؛ تنثني البروتينات تلقائيًّا في الطبيعة، بعضها في غضون أجزاء من الثانية، وهذا ما يدعى مفارقة ليفينثال (Levinthal’s paradox)؛ الأمر الذي فرض تدخل الذكاء الصُّنعي (Artificial Intelligence) للاستفادة من تأثيره وقدرته على تسريع التقدم في مختلف المجالات، وذلك انطلاقًا من أهمية وجود آلية تتمتع بالسرعة والكفاءة لمحاولة كشف الشكل النهائي للبروتين المطوي (1,2).
أهمية التنبؤ ببنية البروتين:
1- يمكن لتنبؤات بنية البروتين أن تساهم في فهم أمراض معينة عن طريق المساعدة على تحديد البروتينات التي تعرّضت لخلل ما والتفكير في كيفية تفاعلها.
2- يمكن أن يكون التنبؤ ببنية البروتين مفيدًا في جهود الاستجابة لوباء (COVID-19) في المستقبل، ليكون بمثابة أداة ضمن الأدوات العديدة التي طورها المجتمع العلمي.
3- استكشاف مئات الملايين من البروتينات ذات نماذج غير معروفة حاليًّا، والتي قد يكون لبعضها وظائف جديدة ومثيرة (1).
التقنيات المستخدمة
طوال عقودٍ مضت؛ استخدم الباحثون تقنيات تجريبية متنوعة ومكلفة ماديًّا وزمنيًّا لفحص البنية الثلاثية الأبعاد للبروتينات وتحديدها؛ مثل الرنين المغناطيسي النووي (nuclear magnetic resonance: NMR)، ودراسة البلورات بالأشعة السينية (X-ray crystallography)، إضافةً إلى المجهر الإلكتروني الفائق البرودة (Cryogenic electron microscopy: cryo-EM). كذلك أُنجِزت المحاولات المبكرة لاستخدام الحواسيب للتنبؤ ببنية البروتين في الثمانينيات والتسعينيات، ولكنَّها كانت ضعيفة الأداء (1,2).
التقييم النقدي للتنبؤ ببنية البروتين (CASP)
بمثابة حل؛ أُسِّست مسابقة في مركز التقييم النقدي للتنبؤ ببنية البروتين (Critical Assessment of Protein Structure Prediction: CASP) في عام 1994، والتي تُقام كل سنتين على يد البروفيسور جون مولت John Moult والبروفيسور كرزيستوف فيديليس Krzysztof Fidelis؛ إذ يُقدَّم إلى المشاركين تسلسلات من الأحماض الأمينية لنحو 100 بروتين ذي بنية غير معروفة.
تحسب بعض المجموعات البِنيةَ لكل تسلسل، في حين تحددها مجموعات أخرى تجريبيًّا، ثم يقارن المنظمون التنبؤات الحسابية بنتائج المختبر، وتُقيَّم التنبؤات بحسب درجة اختبار المسافة العالمية (Global Distance Test: GDT).
يمكن عدّ GDT -تقريبًا- نسبةً مئوية لبقايا الأحماض الأمينية (residues) ضمن مسافة عتبة من الموضع الصحيح، ووفقًا للبروفيسور مولت؛ تُعدّ النتيجة (GDT≈90) مُنافِسةً لنتائج الأساليب التجريبية (1,3).
AlphaFold
عندما شاركت شركة DeepMind في المسابقة CASP13 -وهي شركة ذكاء صُنعي مقرّها المملكة المتحدة- أول مرة في عام 2018، اعتمدت الخوارزمية الخاصة بها التي تدعى AlphaFold على هذه الإستراتيجية المقارنة، ولكنّ AlphaFold استخدمت التعلم العميق (Deep Learning) منهجًا لها؛ إذ يُدرَّب البرنامج على مجموعة ضخمة من البيانات (التسلسلات والبِنى البروتينية المعروفة)، ويتعلّم بعد ذلك تحديد الأنماط.
ربحت DeepMind بسهولة، وذلك بمتوسط 15٪ على كل بنية بروتينية، وبـدرجة GDT تصل إلى نحو 60 لأصعب الأهداف، ولكن كانت التنبؤات لا تزال غير مفيدة بيولوجيًّا (3).
فيما يخص أحدث إصدار من AlphaFold المُستخدَم في مسابقة CASP14:
- مُثِّلت بقايا الأحماض الأمينية (Residues) بمجموعة من العقد، ورُبِطت هذه العقد عن طريق مجموعة من الحواف؛ لتشكيل رسم بياني مكاني (spatial graph) يعبّر عن البروتين المطوي (folded protein).
- صُمِّمَ أنموذج شبكة عصبونية صنعية (neural network) عن طريق دمج التعلم العميق مع خوارزمية الانتباه (attention algorithm)؛ فقد رُبِطت عناقيد من الأحماض الأمينية في كتل صغيرة، ثم جرى البحث عن طرائق لتجميعها في صورة تحاكي الطريقة التي يمكن أن يجمّع بها الشخص أُحجية الصور المتقطِّعة؛ إذ تستجيب الشبكة لأجزاء محددة من البيانات بقوة أكبر من الأجزاء الأخرى (بمعنى آخر؛ تتجاهل جزءًا من تسلسل البيانات).
- دُرِّب الأنموذج من طرف إلى طرف (end-to-end) -لاستبدال المراحل المتعددة بشبكة عصبونية وحيدة تربط الخرج النهائي ببيانات الدخل الأولية- باستخدام مجموعة ضخمة من البيانات المتاحة للعامَّة والتي تتكون من نحو 170000 بنية بروتينية من بنك بيانات البروتين (Protein Data Bank: PDB) جنبًا إلى جنب مع قواعد البيانات الكبيرة (large databases) التي تحتوي على تسلسلات بروتينية ذات بنية غير معروفة.
- استُخدِمت السلاسل المرتبطة تطوريًّا، وجرت محاذاة السلاسل المتعددة (Multiple sequence alignment: MSA)، إضافةً إلى تمثيل ثنائيات بقايا الأحماض الأمينية لتحسين الرسم البياني.
- كُرِّرَ العمل على سلاسل البروتين المرتبط تطوريًّا وعلى ثنائيات بقايا الأحماض الأمينية، ومُرِّرت المعلومات تمريرًا متكررًا بين كل من التمثيلات لتشكيل البنية (1,3).
Image: https://deepmind.com
توضح الصورة السابقة نظرة عامّة إلى بنية أنموذج الشبكة العصبونية الرئيس (1).
للاطلاع على المزيد؛ شاهد الفيديوهين:
إنَّ تكرار هذه العملية يسمح للأنموذج بأن يطوّر تنبؤات قوية للبنية الفيزيائية الأساسية للبروتين، ويزيد من قدرته على تحديد البِنى العالية الدقة في غضون أيام. إضافةً إلى ذلك؛ يمكن لـ AlphaFold استخدام مقياس ثقة داخلي (بلوك Confidence Score الموجود في الصورة المعبِّرة عن أنموذج الشبكة العصبونية) للتنبؤ بأجزاء البنية البروتينية التي تُنُبِّئَ بها بثقة. قد تكون هذه الطرائق مفيدة خاصةً لفئات مهمة من البروتينات مثل بروتينات الغشاء (1).
نلاحظ أنّ الأنظمة مثل AlphaFold تُظهر الإمكانات المذهلة للذكاء الصنعي بوصفه أداةً للمساعدة على الاكتشاف الأساسي؛ لكنها لا تفعل كل شيء بطريقة جيدة حتى الآن، ففي المسابقة تعثَّرت تعثرًا ملحوظًا في تركيب بروتين هو مزيج من 52 مقطعًا صغيرًا متكررًا؛ إذ حصل تشوه في مواقع هذه المقاطع في أثناء تجميعها. كذلك يوجد العديد من الأسئلة للإجابة عنها، بما في ذلك كيفية تكوين البروتينات المتعددة للمركبات، وكيفية تفاعلها مع الحمض النووي الريبوزي المنقوص الأوكسجين (DNA) أو الحمض النووي الريبوزي (RNA) أو الجزيئات الصغيرة، وكيف يمكن تحديد الموقع الدقيق لجميع السلاسل الجانبية للأحماض الأمينية (1,3).
وبذلك نستخلص أنّ نهاية البحث في هذا المجال لم تحن بعد، فقد فتحت هذه النتائج البابَ لمزيدٍ من الاستفسارات التي تحتاج إجابات جديدة ومتجددة دائمًا.
المصادر
2. Callaway E. ‘It will change everything’: DeepMind’s AI makes gigantic leap in solving protein structures [Internet]. Nature.com. 2020 [cited 30 November 2020]. Available from: هنا
3. Service R. ‘The game has changed.’ AI triumphs at solving protein structures [Internet]. Science | AAAS. 2020 [cited 1 December 2020]. Available from: هنا