في عالم الذكاء الاصطناعي، تشهد نماذج الرؤية-واللغة (Vision-Language Models) تطوراً متسارعاً لاستيعاب المهام متعددة الوسائط. ولكن، لا تزال هذه النماذج تعاني من هشاشة عند التعامل مع الأدوات الخارجية. هنا يأتي دور إطار عمل ReGRPO (Reflection-augmented Group Relative Policy Optimization) الذي يُعتبر تحولاً كبيراً في الساحة.
تتضمن الصعوبات الحالية في نماذج التعلم المراقب (Supervised Fine-Tuning) الاعتماد بالأساس على التجارب الناجحة، مما يُبقيها عاجزة عن التعلم من الفشل. في هذا السياق، تطرح ReGRPO حلاً فريداً ينطلق من تطوير محرك بيانات انعكاسي منظم، حيث يتم تنفيذ إجراءات قريبة من الحدود لجمع ملاحظات أخطاء موثوقة، وبناء ثلاثيات تفكير انعكاسي (Reflection-of-Thought) تحمل معلومات حول نوع الخطأ، الأدلة، وخطة الإصلاح.
من خلال تحسين الرموز الانعكاسية وإجراءات التصحيح بشكل مشترك داخل المسارات المحلية باستخدام مزايا نسبية جماعية، تسعى ReGRPO إلى تقليل التكاليف اللازمة للتفكير، مما يحسن الكفاءة العامة.
تظهر التجارب التي أُجريت على النماذج الشهيرة مثل GTA وGAIA أن ReGRPO تتفوق باستمرار على النماذج المفتوحة المتاحة، محققة نتائج رائدة بين الأنظمة المقارنة. يمكن للمهتمين بالاستفادة من الشيفرة وبيانات RoT زيارة: [https://github.com/showlab/ReGRPO].
تبشر ReGRPO بتغيير قواعد اللعبة في تحسين أداء الوكلاء الذكيين، فهل ستكون هناك تطورات أخرى في هذا المجال؟
ReGRPO: ثورة في تحسين سياسات الوكلاء باستخدام الأدوات!
تقدم ReGRPO طريقة مبتكرة لتحسين أداء الوكلاء القائمين على أدوات الذكاء الاصطناعي. هذا الإطار الجديد يتجاوز العقبات التقليدية في معالجة المهام متعددة الخطوات، مما يساعد على تحسين القدرة على التعلم والاستجابة للأخطاء.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
