تم تعليم الشبكة العصبية التنبؤ بدقة تصل إلى 95% بتفاعلات البروتينات في الخلية، والتي تعتبر مهمة لدراسة الأمراض

تعتمد جميع العمليات في الخلية تقريبًا على تفاعل البروتينات داخلها. وبمساعدتهم، تنقل الخلية الإشارات، وتحفز وتنظم التفاعلات الكيميائية، وتشكل المجمعات الجزيئية اللازمة لعملها. وإذا تعطلت هذه التفاعلات ولم تعمل الخلية بشكل صحيح، فقد يؤدي ذلك إلى الإصابة بالأمراض. ولذلك، لدراسة آلية الأمراض وإيجاد أهداف للعلاج، من المهم للعلماء أن يفهموا أي البروتينات يمكن أن تتفاعل مع بعضها البعض وأيها لا يمكن ذلك. من الصعب تحديد ذلك تجريبيًا: إذا نظرت إحدى الدراسات إلى عشرات أو مئات البروتينات، فإن عدد الأزواج المحتملة يكون كبيرًا جدًا بحيث لا يمكن اختباره. ولهذا السبب، يستخدم علماء الأحياء أساليب التعلم الآلي للتنبؤ بمثل هذه الروابط بناءً على بنية الجزيئات وخصائصها. قام باحثو الصحة والسلامة والبيئة بتطوير نظام GSMFormer-PPI، الذي يأخذ في الاعتبار ثلاثة أنواع من البيانات حول كل بروتين في زوج مفترض: تسلسل الأحماض الأمينية، والبنية ثلاثية الأبعاد، وخصائص السطح الجزيئي. ولمعالجتها، استخدم المؤلفون النماذج الموجودة التي تحول هذه البيانات إلى تمثيلات رقمية. يتم تحليل تسلسل الأحماض الأمينية – ترتيب سلسلة الأحماض الأمينية التي تشكل البروتين – بواسطة نموذج لغة البروتين. يتم تمثيل البنية ثلاثية الأبعاد للبروتين كرسم بياني، حيث تصبح الأحماض الأمينية قممًا وتصبح اتصالاتها المكانية روابط. تتم معالجة هذا الوصف بواسطة شبكة عصبية بيانية. أيضًا، باستخدام خوارزمية منفصلة، تم أخذ خصائص سطح البروتين في الاعتبار – الشكل والخصائص الفيزيائية والكيميائية للمناطق التي تتعرف البروتينات من خلالها على بعضها البعض. تم نشر العمل في مجلة التقارير العلمية. تم بعد ذلك إدخال هذه التمثيلات العددية للبروتينات في وحدة محولات طورها الباحثون، وهي عبارة عن شبكة عصبية تقوم بشكل مشترك بتحليل أنواع مختلفة من بيانات البروتين. إذا كانت الميزات في أعمال الباحثين الآخرين غالبًا ما يتم دمجها ببساطة في متجه واحد، فإن النموذج هنا لا يضيفها ميكانيكيًا، ولكنه يكشف عن الروابط بينها. “عندما تتفاعل البروتينات، يكون سطحها مهمًا بشكل خاص: فمن خلاله تتعرف الجزيئات على بعضها البعض وتتركز عليها الخصائص الفيزيائية والكيميائية التي يعتمد عليها الارتباط. في نموذجنا، حاولنا أن نأخذ هذه المعلومات في الاعتبار جنبًا إلى جنب مع تسلسل البروتين وبنيته ثلاثية الأبعاد، ومن ثم لا نجمع الميزات فحسب، بل نمنح الخوارزمية القدرة على تحليل الروابط بينها. وهذا ما جعل من الممكن التنبؤ بشكل أكثر دقة بتفاعلات البروتين البروتين، “يعلق أحد مؤلفي المقال، مدير مركز البحوث والتكنولوجيا الطبية الحيوية في معهد البحث والتطوير، كلية علوم الكمبيوتر، المدرسة العليا للاقتصاد، ماريا بوبتسوفا. ولاختبار مدى نجاح النموذج الجديد، اختبره الباحثون على مجموعة بيانات PINDER، وهي قاعدة بيانات كبيرة لتفاعلات البروتين المعروفة. في التجارب، حقق GSMFormer-PPI دقة تصل إلى 95.7% وتفوق على نماذج الرسوم البيانية الشائعة مثل GCN وGAT. أجرى الباحثون أيضًا اختبارًا باستخدام نسخة أبسط من GSMFormer-PPI، بدون وحدة تحلل العلاقات بين أنواع مختلفة من البيانات. كان أداء هذا الإصدار أسوأ، مما يثبت أن المشكلة لا تكمن فقط في بيانات البروتين نفسها، ولكن أيضًا في كيفية مقارنة النموذج لها بالضبط. وأظهرت اختبارات إضافية أن الأنواع الثلاثة من البيانات كانت مهمة للتنبؤ الدقيق: التسلسل، والبنية المكانية، والخصائص السطحية للبروتين. وعندما أزال الباحثون مكونًا واحدًا في كل مرة، انخفضت جودة التنبؤ. بمعنى آخر، يعمل النموذج بشكل أفضل على وجه التحديد لأنه يأخذ في الاعتبار البروتين على عدة مستويات في وقت واحد. وفي المستقبل، يمكن أن تساعد مثل هذه الأنظمة في اختيار أزواج البروتين بسرعة عند دراسة آليات المرض والبحث عن أهداف دوائية.