في عالم الذكاء الاصطناعي، تقدم الأدوات والمعايير الجديدة طريقة مبتكرة لفهم كيفية اختيار الأفعال من منظور الشخص الأول.
ولهذا، تم تقديم معيار EgoGapBench، وهو معيار تشخيصي يركز على قياس اختيار الأفعال في مشاهد متعددة الوكلاء، حيث يتحدّى هذا المعيار نماذج الذكاء الاصطناعي في قياس كيفية اتخاذ القرارات في ظل وجود وكلاء آخرين.
عادةً ما تركز المعايير الحالية على البيانات المرئية من منظور الشخص الأول، مما يصعب تقييم هذه القدرات بشكل مستقل. ولكن مع EgoGapBench، يتم تحديد قدرة اختيار الأفعال (Egocentric Action Selection - EAS) كقدرة منفصلة، والتي تتضمن اختيار الفعل المناسب من منظور الوكيل في وجود وكلاء آخرين.
اختبرت الدراسة كيف أن البشر يُظهرون إجابات موثوقة عند التفاعل مع هذا المعيار، في حين أن النماذج اللغوية الكبيرة المتاحة (MLLMs) تكافح بشكل كبير وتختار عمومًا أفعالاً يؤديها وكلاء آخرون مرئيون. وحتى عند إجراء تحسين على بيانات قائمة، فإن النتائج لم تُغلق الفجوة بل ربما زادت من تعقيد الأمر.
في المقابل، أظهر التحسين على بيانات تدريب EgoGapBench تحسنًا في دقة الأداء، لكن لم يُظهر أي رقم القدرة البشرية.
هذه النتائج تبرز الفجوة الكبيرة في اكتساب EAS من البيانات المرئية فقط، مما يوفر لنا رؤى جديدة حول كيفية تقييم وتدريب نماذج الذكاء الاصطناعي، ليس فقط لفهم المشاهد ولكن أيضًا لاختيار الأفعال من المنظور الشخصي.
في سياق دائم التطور، من الواضح أن القدرة على اتخاذ القرارات من منظور الشخص الأول هي تحدي حقيقي يتطلب المزيد من الأبحاث والتطوير. ما رأيكم في هذا التطور؟ شاركونا في التعليقات.
اكتشاف ثورة في الذكاء الاصطناعي مع EgoGapBench: معيار جديد لفهم الاختيار الإنساني في المشاهد متعددة الوكلاء!
EgoGapBench هو معيار مبتكر يقيس كيفية اختيار الأفعال من منظور الشخص الأول في مشاهد متعددة الوكلاء، مما يكشف عن فجوة كبيرة في أداء نماذج الذكاء الاصطناعي مقارنة بالإنسان. تعرف على أهمية هذه الدراسة في عالم AI!
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
