في عالم الذكاء الاصطناعي، يشكل تحسين استدعاءات الأدوات المتعددة الخطوات تحديًا كبيرًا. تعلن الأبحاث الجديدة عن إطار العمل PROVE (برامج المكافآت في البيئات المؤكدة) الذي يجمع بين الابتكار والكفاءة. يتجاوز هذا النظام التحديات التقليدية لتدريب نماذج اللغة الكبيرة (Large Language Models) من خلال ثلاثة مساهمات رئيسية:
1. **مكتبة خوادم MCP**: تتضمن 20 خادمًا حيويًا تعرض 343 أداة، مما يمكّن التدريب المعزز بتوصيل الحالات في الوقت الفعلي.
2. **خط أنابيب توليد البيانات الأوتوماتيكية**: يقوم بإنشاء مسارات استدعاءات أدوات متعددة الخطوات موثوقة بمساعدة محاكاة محادثات تستند إلى الحالة الفعلية للخادم، مما يضمن أن كل استعلام generado يشير إلى كائنات حقيقية.
3. **مكافأة برامج متعددة المكونات**: تشمل نظام تسجيل صلاحية متدرج، ووعي بالاعتماد، وعقوبة كفاءة متكيفة، مما يشجع على أداء أفضل من دون الحاجة إلى نماذج تحكيم خارجية.
تم تدريب أربعة نماذج مختلفة (Qwen3-4B، Qwen3-8B، Qwen2.5-7B، Granite-4.1-8B) باستخدام إطار العمل هذا، مما أدى إلى تحسينات ملحوظة في الأداء بفضل المكافآت المبرمجة الذكية. على سبيل المثال، أظهرت النماذج تحسنًا يصل إلى +10.2 نقطة على BFCL Multi-Turn.
يرتسم أمامنا مستقبل مثير حيث يمكن لنماذج الذكاء الاصطناعي أن تتفاعل بشكل معقد وتحقق نتائج مبهرة في البيئات الديناميكية.
ما رأيكم في هذا التطور الثوري؟ شاركونا في التعليقات!
ثورة في الذكاء الاصطناعي: استخدام التعلم المعزز لتنفيذ أدوات متعددة الخطوات في بيئات حقيقية!
تقدم الدراسة الجديدة إطار العمل PROVE الذي يحسن تدريب نماذج الذكاء الاصطناعي لتنسيق استدعاءات الأدوات المتعددة الخطوات. بفضل بيئات التنفيذ الحية، تحقق النماذج أداءً متفوقاً بنسبة تصل إلى +10.2 نقطة!
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
