مع تزايد تقدم قدرات نماذج اللغات الضخمة (Large Language Models)، تواجه تقنيات تقييمها تحديات جديدة. فقد اعتمدت الطرق التقليدية على التحقق البرمجي من قيود سطحية وضيّقة، بينما تتطلب مهام التعليمات المعقدة والسلوكيات الوكيلة (agentic tasks) تقنيات تقييم تتسم بالغموض وتعتمد على السياق.
في دراسة جديدة، تم تقديم تحليل نظامي لأسلوب التقييم المُعتمد على المعايير المُختارة من قبل خبراء، كبديل حديث وفعّال. تم استناد هذا التحليل على أدلة تجريبية من مجالين مختلفين: مهام التعليمات المعقدة ومهام الوكالة في مجالات الأعمال.
تستند عملية بناء المعايير إلى خمسة مبادئ تصميم رئيسية، منها الحفاظ على الحد الأقصى للذرة القابلة للتطبيق (Maximum Viable Atomicity) وتصميم معايير مبنية على نوايا واضحة (intent-aware criterion design). وللتحقق من فعالية هذه المبادئ، تم تقديم مجموعة بيانات جديدة تُعرف بـ ComplexConstraints، والتي تربط كل تعليم مع مجموعة من 10-40 معياراً ذرياً.
تشير النتائج إلى أن هذه المعايير المتخصصة ليست فقط أدوات تقييم أفضل، بل تعمل أيضاً كإشارات تدريب فعّالة. لاحظ الباحثون أن التدريب على حوالي 1000 مثال من ComplexConstraints أدى إلى زيادة بنسبة 15.5% في أداء نموذج بحجم 4 مليار معلمة، و12.2% لنموذج بحجم 235 مليار معلمة في تنفيذ التعليمات. كما أظهرت نتائج التدريب الأحادى من خلال تقنيات التعزيز (RL) في بيئات تقييم معيارية تحسناً في الأداء في مجالات جديدة لم يُدرّب النموذج عليها مسبقاً.
تُظهر هذه الاكتشافات أن المعايير التي أعدها الخبراء تعزز من دقة النماذج وتطوير قدراتها التنافسية في السوق، مما يجعلها أدوات تقييم وتدريب فعالة للغاية.
تحديات جديدة في تقنيات تقييم الذكاء الاصطناعي: كيف تطور تقييم نماذج اللغات الضخمة؟
تقدم تقنيات معالجة اللغة الطبيعية (NLP) حلولاً مبتكرة لتقييم النماذج الحديثة. من خلال استخدام معايير تقييم متخصصة، يمكن تحسين أداء هذه النماذج بشكل ملحوظ في مهام متعددة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
