تحظى نماذج اللغة الكبيرة (LLMs) بقدرات مذهلة في التفكير واستخدام الأدوات، ولكن هل تمتلك هذه النماذج الأساسيات المعرفية اللازمة لحل المشكلات؟ على الرغم من نجاح البشر في التكيف في بيئات جديدة بفضل إدراكهم وتفكيرهم وذاكرتهم، فإن السؤال حول إمكانية LLMs في تحسين حلولها بشكل مستمر استجابةً للتغذية الراجعة البيئية يعتبر موضوعاً غير مستكشف بشكل كافٍ.

لهذا السبب، تم تقديم معيار OPT-BENCH، الذي يشكل منصة جديدة لتقييم قدرة التحسين الذاتي في المساحات الواسعة للبحث. يجمع OPT-BENCH بين 20 مهمة في تعلم الآلة و10 مشكلات NP-hard تقليدية، مما يوفر بيئة صارمة لتحديد ما إذا كانت الوكلاء يمكن أن تتكيف من خلال التأمل الذاتي بدل من الاعتماد فقط على الأدوات.

علاوة على ذلك، تم اقتراح إطار عمل جديد يسمى OPT-Agent، الذي يحاكي التكيف المعرفي البشري. يعمل OPT-Agent من خلال حلقة عامة تشمل الإدراك والذاكرة والتفكير، لتكرار تحسين الحلول بناءً على التغذية الراجعة من البيئة.

من خلال تجارب مكثفة على 19 نموذج LLM من 7 عائلات، تشمل نماذج التفكير والنماذج العامة ونماذج المصادر المفتوحة التي تتراوح بين 3 مليار إلى 235 مليار من المعلمات، تظهر النتائج أن النماذج الأقوى تكون أكثر فعالية في الاستفادة من إشارات التغذية الراجعة للتحسين الذاتي. ومع ذلك، يظل مدى عمليات التكيف العليا هذه مقيداً أساسياً بقدرة النماذج وقد أثبتت الدراسات أن حتى أكثر نماذج LLM تقدماً لا تزال تقل عن أداء الخبراء البشريين.