في إطار الأبحاث الرائدة في مجال الذكاء الاصطناعي للعلوم، تتصدر دراسة جديدة الأبحاث المتعلقة بتصميم البوليمرات، حيث أظهرت نماذج اللغة الكبيرة (LLMs) وعودًا كبيرة ولكنها تواجه تحديات ملحوظة. تشير الدراسة إلى أن معظم النماذج الحالية تفتقر إلى المعرفة الخاصة بالبوليمرات، بالإضافة إلى أن النماذج المتوافقة جزئيًا لا تغطي المعرفة والقدرات الضرورية بشكل كافٍ.

للتغلب على هذه العقبات، تم تقديم PolyBench، وهي قاعدة بيانات ضخمة تغطي أكثر من 125,000 مهمة مرتبطة بتصميم البوليمرات، مما يستفيد من قاعدة بيانات تحتوي على أكثر من 13 مليون نقطة بيانات تم جمعها من مصادر تجريبية واصطناعية. يهدف هذا المشروع إلى ضمان تغطية شاملة للبوليمرات وخصائصها.

تتميز PolyBench بتقديم أسلوب جديد يسمى "تحسين الاستدلال المدعم بالمعرفة" (Knowledge-augmented reasoning distillation)، الذي يساهم في تحسين دقة تحليل المهام المرتبطة بتصميم البوليمرات. كما تم تنظيم المهام من البسيطة إلى المعقدة، مما يتيح إجراء اختبارات عمومية وإجراء تحليلات تشخيصية عبر مجال المشكلة.

تُظهر التجارب أن نماذج اللغة الصغيرة (SLMs) التي تحتوي على 7 إلى 14 مليار معلمة والمدربة على PolyBench، تحقق أداءً متفوقًا على نماذج متشابهة الحجم، وتظل تنافسية مع نماذج اللغة الكبيرة المغلقة في مجموعة بيانات اختبار PolyBench، مع تحقيق تحسينات في الأداء على مؤشرات البوليمر الخارجية.

لمن يرغب في الاطلاع على هذا المشروع الرائد وكذلك الأكواد المرتبطة، يمكنه زيارة الرابط التالي: https://github.com/StonyBrookNLP/PolyBench.