🔬 أبحاث2 دقائق للقراءة👁 0 مشاهدة

GTA-2: ثورة في تقييم وكلاء الأدوات العامة نحو تحقيق كفاءة غير مسبوقة

يتناول البحث الجديد GTA-2 انتقال الوكلاء العامين من تنفيذ التعليمات البسيطة إلى استكمال مهام إنتاجية معقدة. تم تطوير نظام تقييم جديد لتحسين أداء هذه الوكلاء في مهام حقيقية ومتعددة الأبعاد.

في عالم الذكاء الاصطناعي، تطور وكالات الأداء العام من مجرد تنفيذ التعليمات البسيطة إلى استكمال مهام إنتاجية معقدة تتطلب تحقيق مستوى عالٍ من التنسيق والدقة. ومع ذلك، فإن المنظومات الحالية لتقييم استخدام الأدوات لا تعكس المتطلبات الحقيقية لهذه الوكالات، مما يجعلها تعتمد بشكل مفرط على استفسارات موجهة مسبقًا وأدوات غير فعالة.

لذا، نقدم لكم نظام GTA-2، وهو معايير جديدة تُركز على وكلاء الأدوات العامة (General Tool Agents). يهدف هذا النظام المتدرج إلى تضمين كل من استخدام الأدوات الفردية (atomic tool use) وإكمال المهام المفتوحة والنهاية (open-ended workflows) بشكل ملائم للعالم الحقيقي.

تم بناء GTA-2 على أساس التحقق من الواقع من خلال الاعتماد على استفسارات حقيقية، أدوات حية، وسياقات متعددة الوسائط. يتكون النظام من جزئين رئيسيين:
1. GTA-Atomic، الذي يقيم دقة الاستخدام المغلق للأدوات على مدى قصير.
2. GTA-Workflow، الذي يقدم مهام طويلة الأمد ومفتوحة من أجل تحقيق الإنجاز نهاية إلى نهاية.

كما يقدم النظام آلية تقييم تعتمد على نقاط تفتيش متكررة، تساعد في تقسيم الأهداف إلى أهداف فرعية قابلة للتحقق. توضح التجارب الحديثة وجود فجوة كبيرة في القدرات، حيث تكافح النماذج المتقدمة بالفعل في المهام الأساسية، محققة نجاحًا لا يتجاوز 50% في معظم الحالات. وعند الانتقال إلى المهام المعقدة، تحقق أفضل النماذج نجاحًا نسبته 14.39% فقط.

تظهر التحليلات أن تغذية راجعة موجهة بواسطة نقاط التحقق تحسن الأداء بشكل ملحوظ، بينما تعزز الأطر المتقدمة مثل Manus و OpenClaw إكمال المهام بشكل كبير. هذه النتائج تسلط الضوء على أهمية تصميم أدوات التنفيذ تفوق قدرات النموذج الأساسية، مما يمنحنا رؤى قيمة لتطوير مساعدين شخصيين ومحترفين موثوقين.

المزيد من المعلومات متاحة على [GitHub](https://github.com/open-compass/GTA). مع GTA-2، نقترب خطوة نحو مستقبلٍ يعتمد فيه على وكالات فعالة في الحياة اليومية.
المصدر:أركايف للذكاءاقرأ المصدر الأصلي ←
مشاركة:𝕏واتسابتيليجراملينكدإن

📰 أخبار ذات صلة