في خضم التطورات السريعة في تكنولوجيا الذكاء الاصطناعي، تبرز نماذج اللغات الضخمة (Large Language Models) كأداة رئيسية تُستخدم في مجموعة متنوعة من التطبيقات. ولكن كيف يمكننا تحسين أدائها في المهام القابلة للتحقق دون زيادة التكاليف؟ هنا يأتي دور الحل الجديد الذي تم تقديمه في الأبحاث الأخيرة.

تعتمد معظم تقييمات الأداء على مقياس يُسمى pass@k، وهو يقيس احتمالية الإجابة الصحيحة على سؤال ما في مجموعة من التجارب. ومع ذلك، عندما يتعلق الأمر بميزانية محددة، يصبح مقياس coverage@cost، والذي يقيس عدد الأسئلة الفريدة المجابة وفقًا لمجموع المحاولات، أكثر ملاءمة.

تظهر الأبحاث أن هناك سلوكًا يرتبط بالقانون القوة (Power-Law Behavior) في pass@k، مما يؤدي إلى نمو دون مستوى خطي في coverage@cost، أي ما يعرف بالعائد المتناقص. لمعالجة هذه المشكلة، تم تقديم طريقة Reset-and-Discard (ReD) – آلية استعلام مبتكرة تهدف إلى زيادة coverage@cost ضمن ميزانية معينة، بغض النظر عن شكل pass@k.

علاوة على ذلك، يمكن لمعدل pass@k التنبؤ بشكل كمي بالتوفير في العدد الإجمالي للمحاولات اللازمة باستخدام ReD. وإذا لم يكن معدل pass@k متاحًا للنموذج، يمكن لـ ReD استنتاج معامل القوة الخاص به.

تظهر التجارب التي تم إجراؤها على ثلاثة نماذج لغوية ضخمة عبر مجموعة من الاختبارات في مجالات البرمجة (HumanEval) والرياضيات (GSM8K) والتفكير المنطقي (MMLU-Pro) أن طريقة ReD تُقلل بشكل كبير من عدد المحاولات، والكلمات المستخدمة، والتكلفة بالدولار، للوصول إلى مستوى تغطية مرغوب فيه. كما أنها تقدم طريقة فعالة لقياس قوانين الاستدلال.

من المثير للاهتمام أن مزايا ReD تستمر في التقدم حتى مع وجود محققات غير مثالية، وتتجاوز الأداء الأساسي للاختلافات الخاصة بالتخصيص. يعد هذا التطور علامة بارزة في مجال تحسين نماذج الذكاء الاصطناعي، مما يعزز من كفاءتها وقدرتها المالية.