تعد نماذج خصائص الجزيئات (Molecular Property Models) أدوات حيوية في اتخاذ قرارات اكتشاف الأدوية عالية المخاطر. ومع ذلك، فإن النتائج التي تقدمها هذه النماذج غالبًا ما تكون صعبة التدقيق، حيث تعطي مؤشرات بلا تبرير سليم. ولكن، ماذا لو تمكننا من الجمع بين قوة نماذج اللغة وخصائص الجزيئات بطريقة أكثر تفاعلية؟ هنا يأتي دور "بولك" (Bolek).
نموذج بولك يعمل كنموذج لغوي متعدد الوسائط، حيث يقوم بإدخال تخزين بصمة مورغان (Morgan Fingerprint) في وحدة فك النصوص الموجهة، مما يعزز من قدرة النموذج على تقديم تفسيرات قائمة على البنية الجزيئية. تم تعديل بولك بدقة على مهام محاذاة الجزيئات، بما في ذلك وصف الجزيئات، تنبؤ الوصف RDKit، واكتشاف الهياكل الفرعية.
عند اختباره على 15 مهمة تصنيفية لبيانات TDC، أظهر بولك أداءً فائقاً مقارنة بالنموذج الأساسي Qwen3-4B-Instruct، حيث تحسنت نتائج الدقة المتوسطة من 0.55 إلى 0.76. علاوة على ذلك، تفوق بولك على النموذج TxGemma-9B-Chat في 13 من 15 مهمة تصنيف، رغم أن حجمه أقل من نصفه.
تفسيرات بولك تبرز بالدقة حيث يستشهد بالموصوفات العددية بنسبة تصل إلى 100 مرة أكثر مقارنة بالنماذج الأساسية، وتظهر توافقًا قويًا مع RDKit لمؤشرات رئيسية مثل TPSA، MolLogP، وMolWt.
تسلسل تجريبي آخر شمل 15 نقطة تصنيف غير مرئية، إلا أن بولك نجح في مطابقة أداء TxGemma في خمسة منها، مما يدل على قدرة النموذج الفائقة على تعميم المعرفة حتى لم يشهد التدريب عليها من قبل.
تظهر هذه النتائج أن الجمع بين معالجة اللغة الطبيعية وأنماط التفكير المرتبطة بميزات الجزيئات القابلة للتحقق يمكن أن يُنتج نماذج جزيئية مختصرة وقابلة للتدقيق.
بولك: نموذج لغوي متعدد الوسائط لإعادة التفكير في الجزيئات!
يقدم نموذج بولك Hing mastermind in molecular reasoning,通过天然语言推理与分子结构的结合,提升了药物发现的准确性! نتائج رائعة تدعو إلى التفكير في مستقبل التصاميم الدوائية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
