تعتبر عملية التعميم في بيئات استدعاء الأدوات الذكية (agentic tool-calling environments) أحد التحديات الجوهرية التي تواجه أنظمة التفكير الذاتي (agentic reasoning systems). ورغم أن نماذج اللغات الضخمة (Large Language Models) قد حققت نجاحات بارزة في اختبارات فردية، إلا أن قدرتها على تكوين استراتيجيات تفكير، والحفاظ على الحالات الوسيطة، وتنسيق الأدوات عبر مجالات متعددة، لا تزال غير مستكشفة بشكل كاف.
نقدم لكم في هذا المقال MAVEN (Modular Agentic Verification and Execution Network)، وهو إطار عمل كما يرمز إلى خفة وزنه وتصميمه لإجراء استدلال رمزي منظم، وتنسيق أدوات قابل للتكيف، والتحقق الوسيط. لقد تم تقييم MAVEN عبر معايير معروفة لاستدعاء الأدوات، مثل BFCL v3، وTauBench، وTau2Bench، وAceBench، بالإضافة إلى تقديم MAVEN-Bench، وهو معيار اختبار الضغط لتقييم التفكير الرياضي والفيزيائي متعدد الخطوات مع التحقق الصريح وتكوين مهام معاكسة.
يظهر MAVEN-Bench وجود فجوة كبيرة بين جودة التفكير الجزئي ونجاح مهمة شاملة، حيث تم تحسين دقة النموذج الأساسي GPT-OSS-120b من 48% إلى 71% دون الحاجة إلى تدريب إضافي. كما حافظ MAVEN على تنافسيته مع المعايير الخاصة الرائدة، مستخدماً هيكلًا يفتح وزنه مع نسبة تكلفة تقدر بحوالي 1/10. مما يشير إلى أن الهياكل الخفيفة المتعمدة على التحقق يمكن أن تعزز من التفكير التراكمي وتحفز تقييمًا أكثر وعيًا للأنظمة عند نشرها في العالم الحقيقي.
MAVEN: ابتكار ثوري لتعزيز القدرة على التعميم في أنظمة استدعاء الأدوات الذكية
تقدم MAVEN نظاماً خفيفاً للتحقق والتنفيذ يحتوي على إمكانيات جديدة لتحسين التفكير المنطقي للأدوات. يظهر اهتماماً كبيراً في كيفية تعزيز دقة النماذج اللغوية الكبيرة بشكل ملحوظ.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
