في عالم الذكاء الاصطناعي المتزايد التعقيد، تبرز أهمية وكيل اللغة الكبير (LLM) كأداة تفاعلية قادرة على اتخاذ القرارات. ومع ذلك، جاء بحث جديد ليفتح النقاش حول استقلالية هذه النماذج. حيث تم تجهيز وكلاء LLM بأدوات الشبكات العصبية الرسومية (GNN) كبدائل قابلة للاستدعاء، مع توقع أن يتحكم الوكيل في كيفية ووقت الاعتماد على تلك الأدوات.

لكن ماذا لو كانت النتائج متناقضة؟ أظهر البحث أن وكيل LLM يُظهر انصياعًا غير مبرر لأداة GNN، مما يعني أن الوكيل لم يقم بتوظيف أي من مهاراته التقديرية. وقد أظهرت الاختبارات أن توافق توقعات الوكيل مع نتائج GNN يتراوح بين 97.6% و99.2%. وهذا يشير إلى سلوك وكيل يكرر نتائج الأداة بدون أن يمارس أي نوع من التفكير النقدي.

عند النظر إلى القدرات الأساسية المختلفة لوكلاء LLM، وجد الباحثون أن هذا الانصياع لا يتسبب في تراجع أداء النماذج التي تتحدى الأدوات. بل على العكس، كلما زادت قدرات النموذج، زاد توافقه مع نتائج GNN، حيث تراوحت الأرقام من 0.60 إلى 0.98.

من المثير للاهتمام أن العلاقة بين أداء الوكيل وأداء الأداة لم تتقلص مع زيادة القدرات. بالعكس، استنادًا إلى تقديرات الإحصائيات، تقدم نماذج مختلفة بدائل تتجاوز أداء الأداة، ولكن الوكيل يظل متمسكًا بخيارات أداة GNN.

ختامًا، تشير هذه النتائج إلى ضرورة إعادة النظر في تقييمات النظام القائم على الوكيل والأداة، حيث لا يمكن الافتراض أن الوكيل يضيف حكمًا فوق الأداة. إنها دعوة للمطورين والمجتمع الأكاديمي لتفكر في كيفية تصميم أدوات تحديد الاستدعاء بشكل أفضل بدلاً من الاعتماد على تحسين النماذج.

ما رأيكم في هذا التطور؟ شاركونا في التعليقات!