في عالم يتجه نحو الاعتماد المتزايد على نماذج الذكاء الاصطناعي، قدم فريق بحثي دراسة جديدة تحت عنوان LEAP، والتي تهدف إلى تحسين تقييم كفاءة التعلم في النماذج اللغوية الكبيرة (LLMs) في سياق التصميم العلمي التكراري. يعتمد الكثير من العمل في المختبرات المستقلة على هذه النماذج، حيث يُعتقد أن فاعليتها في معالجة المعلومات وتقديم مخرجات فعالة يمكن أن تُسرع من عملية التصميم. ومع ذلك، كان التقييم التقليدي يركز فقط على النتائج النهائية في نقاط زمنية ثابتة، مما يستثني تحليل مسار التعلم الفعلي.
ولمعالجة هذه الفجوة، قام الباحثون بتقديم LEAPBench، وهو إطار عمل يتكون من 55 مهمة تقوم بربط معايير تقييم مسار التعلم بكفاءة التعلم، مما يجعل كل تكرار محسوب وسيلة لتوفير التكاليف والوقت. وقد أظهر تطبيق هذا الإطار على ثمانية نماذج لغوية كبيرة أن الانتقال من تقييم النتائج النهائية إلى تقييم المسارات يغير من تقييم النموذج الأفضل في 53% من المهام، مما يكشف عن مكاسب في الكفاءة لم يتم التعرف عليها سابقاً.
كما كشفت الدراسة أن هذه النماذج لم تتفوق على معيار بايزي التقليدي. في 16 مهمة في مجال البيولوجيا، أظهرت النتائج أن التوجيه المعتمد على المعرفة بالنطاق أدى إلى اختيارات متطابقة مع التصميم الأفضل المنشور بنسبة أقل بمقدار 10 نقاط مئوية مقارنة بالتوجيه العام في الدورة رقم 30.
تحتوي الدراسة أيضاً على دلالة أخرى، حيث يمكن استخدام معايير تقييم المسار كهدف تدريب قابل للتطبيق. إذ أظهر التدريب الموجه باستخدام تقنية التعلم المعزز تحسناً في الأداء على 14 من 21 مهمة محجوزة.
انطلاقًا من هذه النتائج، تبدو LEAP خطوة جديدة في فهم وعمل نماذج الذكاء الاصطناعي، مع التأكيد على أهمية مسار التعلم في تحسين النتائج العلمية.
LEAP: كيف تقيم كفاءة التعلم في نماذج الذكاء الاصطناعي لتعزيز التصميم العلمي
تسعى دراسة جديدة إلى تحسين تقييم كفاءة التعلم في النماذج اللغوية الكبيرة (LLMs) من خلال تقديم معايير جديدة. تطور هذا البحث يسلط الضوء على كيفية تحقيق نتائج أفضل بسرعة وكفاءة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
