في عالم البيولوجيا الجزيئية، يزداد الطلب على تصميم تسلسلات بروتينية دقيقة وفعالة. ومن هنا، تظهر تقنية جديدة تُدعى RosettaSearch، التي تمثل خطوة نوعية في هذا المجال. تعتمد هذه التقنية على تحسين متعدد الأهداف (multi-objective optimization) في وقت الاستدلال (inference time)، مما يسهل تصميم تسلسلات البروتين بسرعة وكفاءة.

تستخدم RosettaSearch نماذج اللغات الضخمة (LLMs) كتحسين مولّد ضمن خوارزمية بحث قادرة على الاستكشاف المنظم والاستغلال، مع الاعتماد على مكافآت حسابية تعتمد على نموذج RosettaFold3، الذي يُعتبر نموذجًا رائدًا في تقدير بنية البروتين.

خلال تقييم شامل، تم تطبيق RosettaSearch على 400 تسلسل غير مثالي تم تصميمه بواسطة LigandMPNN، والذي يمثل نموذجًا متقدماً في تصميم تسلسل البروتين. وتبين أن RosettaSearch تمكنت من استعادة تصاميم ذات دقة عالية، حيث حسنت مؤشرات دقة البنية بنسبة تتراوح بين 18% إلى 68%، مما يعني تحقيق زيادة تصل إلى 2.5 مرة في معدل نجاح التصميم.

عندما تم تقييم تسلسل البروتين الذي صممته RosettaSearch بمساعدة نموذج مستقل لتقدير البنية (Chai-1)، أظهرت النتائج استمرارية تلك التحسينات، مشيرة إلى أن الأداء يتزايد مع زيادة القدرة على التفكير. كما تم إثبات أن RosettaSearch تُحسن من دقة تسلسل تصميم ProteinMPNN للبروتينات المستندة إلى معلومات من أطلس Dayhoff، مما يدل على قوة هذه الطريقة في العمل مع هياكل البروتين المصنعة حاسوبيًا.

المثير في الأمر هو أن RosettaSearch تشمل امتدادًا متعدد الوسائط باستخدام نماذج اللغة والصورة، حيث تُستخدم صور هياكل البروتين المتوقعة لتعزيز سياق الهيكل وإرشاد عملية توليد تسلسل البروتين. من المعروف أن هذه هي المرة الأولى التي يُظهر فيها استخدام نماذج اللغات الضخمة فعالية كتحسين مولّد لتصميم تسلسل البروتين، حيث تُحقق مكاسب منهجية دون الحاجة إلى إعادة تدريب أي نموذج.