في عالم الذكاء الاصطناعي المتطور، تواجه وكالات النماذج اللغوية الضخمة (LLMs) تحديات كبيرة في إكمال المهام الحقيقية. تشير الإحصائيات إلى أن نموذج GPT-4o ينجح في أقل من 15% من المهام في WebArena، بينما يسجل أقل من 55% في ToolBench، ما يبرز الحاجة إلى حلول فعالة.

ومع ذلك، في هذه البيئة الغنية بالتجارب، يتم تجاهل عدد كبير من المسارات المفقودة، مما يمثل ضياعاً لمصدر رئيسي لتجارب التعلم. هنا يأتي دور AgentHER، الإطار الجديد الذي يسعى لاستعادة هذا الإشارة التدريبية المفقودة من خلال تعديل مبدأ إعادة تجربة المشاهدة (Hindsight Experience Replay - HER) ليتناسب مع مسارات الوكالات ذات اللغة الطبيعية.

الفكرة الأساسية بسيطة ولكن فعّالة: المسار الذي يفشل في تحقيق الهدف A قد يكون عرضاً صحيحاً لتحقيق هدف بديل يمكن الوصول إليه وهو الهدف B. AgentHER ينفذ هذه الفكرة عبر أربعة مراحل رئيسية: تصنيف الفشل، استخلاص النتائج، إعادة تصنيف العناوين بمساعدة نماذج اللغة، وتغليف البيانات. مما يحول التجارب الفاشلة إلى بيانات تدريب عالية الجودة

نتائج الاختبارات على WebArena وToolBench أظهرت أن AgentHER يمكنه تحسين الأداء في النماذج بمعدلات تتراوح بين 7.1 إلى 11.7 نقطة مئوية عبر أربع أسر من النماذج، مع تحقيق فعالية مضاعفة في البيانات. وبفضل استخدام موارد تدريبية أقل، يتضح أن الأداء لا يزال مستمراً من 1.5B إلى 72B من الوسائط.

المستوى العالي من الدقة في إعادة التصنيف، حيث وصلت إلى 97.7%، تم تأكيده من خلال تقييمات متعددة للقضاة، مما يعكس قوة هذا النظام الجديد. بفضل AgentHER، يمكن لوكالات النماذج اللغوية الضخمة تحسين نتائجها وتحقيق نجاح أكبر في المهام المعقدة. هل أنتم متشوقون لمعرفة المزيد عن هذه التطورات المذهلة؟ شاركونا آراءكم في التعليقات!