تتطور نماذج اللغة الكبيرة (LLMs) باستمرار، ويظهر الابتكار الأخير في هذا المجال عبر تقنية جديدة تُعرف باسم التكرار الذاتي (Self-Refinement). تعتمد هذه التقنية على فكرة توفير إجابات متعددة ومن ثم تحسين الإجابة النهائية المستندة إلى تلك التقييمات.
بالرغم من أن الطرق الحالية، مثل التصويت الأفضل (Best-of-N) والتصويت الجماعي (majority voting)، لا تزال شائعة، إلا أن فعاليتها تتراجع عندما تكون جميع الإجابات المقدمة غير صحيحة. لذا، يصبح من الضروري البحث عن بدائل أكثر ابتكاراً لتحسين أداء هذه النماذج.
تسعى تقنية التكرار الذاتي إلى تغطية هذا الفجوة من خلال تقديم مقياس جديد يعرف بـ "فجوة التحسين" (Refinement Gap) والذي يحدد مدى الفائدة التي تعود على النموذج بما يتجاوز أساليب التصويت التقليدية. وقد أظهرت الأبحاث أن فجوة التحسين هذه تتزايد بوضوح مع زيادة حجم النموذج، مما يشير إلى أن النماذج الأكبر قد تكون أكثر قدرة على تقديم تحسينات ذات مغزى.
استناداً إلى هذه النتائج، تم تقديم إطار العمل الجديد المعروف باسم تحسين التوليد الذاتي (Generative Self-Refinement - GSR). يعتمد هذا الإطار على فكرة نقل سياسة التحسين من نماذج مدربة كبيرة ذات فجوات تحسين أعلى إلى نماذج أصغر. والأهم من ذلك، أن GSR يقوم بتدريب نموذج واحد بشكل متزامن، بحيث يتمكن من إنشاء خيارات قوية ومن ثم تحسين الإجابة النهائية استنادًا إلى هذه الخيارات.
تظهر النتائج التجريبية أن الطريقة الجديدة تحقق أداءً متفوقاً على خمس معايير رياضية، وتتفوق على طرق التجميع التقليدية، كما تُظهر مهارات التحسين التي تم تعلمها انتقالًا سلسًا عبر مقاييس ونماذج متعددة، مع قدرة قوية على التعميم حتى في مجالات جديدة.
تعلم التحسين الذاتي: كيف تعزز نماذج اللغة الكبيرة (LLMs) قدرتها على التفكير المتوازن؟
تتجه الأبحاث نحو تحسين أداء نماذج اللغة الكبيرة (LLMs) من خلال طريقة جديدة تدعى Refinement Gap، التي تقيس فعالية التحسين الذاتي. تكشف النتائج أن هذه الطريقة تقدم أداءً متفوقاً على أساليب التصويت التقليدية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
