في عالم الذكاء الاصطناعي، تعتبر 'الحوامل الوكيلة' (Agent Harnesses) بمثابة البرامج ذات الحالة التي تحيط بنموذج اللغة (Language Model) وتحدد ما يمكنه رؤيته في كل خطوة. تشير الدراسات إلى أن هذه الحوامل يمكن أن تزيد من الأداء الإجمالي لنموذج ثابت بمقدار يصل حتى ستة أضعاف. هذا يطرح سؤالًا ضروريًا: ما هو الجزء من كفاءة الوكيل الذي تتحمله الحوامل نفسها، ومقدار الدعم الذي لا يزال يحتاجه من نماذج اللغة الضخمة (LLMs)؟
أجرت دراسة جديدة في بيئة لعبة 'الباتلشيب التعاونية' (Collaborative Battleship)، وهي إعداد تخطيطي جزئي الملاحظة يتضمن تحديثات المعتقد، أسئلة تجمع المعلومات، واختيار الإجراءات المتوائمة مع عدم اليقين. تم تقسيم الحوامل التخطيطية إلى أربع طبقات متزايدة الغنى: تتبع المعتقدات السابقة، التخطيط الإعلاني، الانعكاس الرمزي، وبوابة المراجعة المدعومة من نموذج اللغة. تم قياس مساهمة كل طبقة تحت نفس زمن التشغيل.
اعتمدت الدراسة على معدل الفوز كمعيار رئيسي، وF1 كمؤشر ثانوي لاستهداف الأهداف المحلية. تشير النتائج المستخلصة من 54 مباراة إلى أن طبقة التخطيط الإعلاني هي الأكثر فعالية، حيث رفعت معدل الفوز من 50.0% إلى 74.1%، مما يظهر تأثيرًا كبيرًا على أداء اللعبة. بينما كانت الانعكاسات الرمزية فعّالة ميكانيكيًا، إلا أنها حساسة لعمليات المعايرة، مما أدى إلى تغييرات طفيفة في النتائج. ولم تُظهر بوابة المراجعة المدعومة من نموذج اللغة إسهامًا كبيرًا، حيث تنشط فقط في 4.3% من الحركات.
تسلط هذه الدراسة الضوء على أهمية توضيح الأدوار المختلفة لنماذج اللغة الضخمة في السياقات الوكيلة، مما يفتح مجالًا للنقاش حول كيفية تحسين أداء أنظمة الذكاء الاصطناعي.
كيف يمكن لوكلاء الذكاء الاصطناعي أن يحققوا إنجازات مذهلة؟ دراسة جديدة تكشف النقاب عن دور نماذج اللغة الضخمة!
تسلط دراسة جديدة الضوء على مدى تأثير 'الحوامل الوكيلة' في تعزيز أداء وكالات الذكاء الاصطناعي. النتائج تشير إلى أن أداء الوكيل يتأثر بشكل كبير بالطبقات المختلفة للتخطيط، مما يثير تساؤلات حول أهمية نماذج اللغة الضخمة (LLMs).
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
