في عالم الذكاء الاصطناعي، تسجل نماذج اللغة والرؤية (vision-language models - VLMs) تقدمًا ملحوظًا في فهم المعلومات المجمعة، ولكنها تواجه تحديات كبيرة في مهام التفكير المكاني التي تتطلب التفاعل المتعدد الخطوات وجمع الأدلة. هنا يأتي دور الابتكار الجديد المعروف بـ (PERception-Interaction-reason Agent - PERIA).
تقدم PERIA نموذجًا متطورًا لوكلاء بصريين معززين بالأدوات، حيث يتجاوز قدرة النماذج الحالية في التعامل مع مشكلات التفكير المكاني، مثل رؤية الخرائط واستكشاف الصور وإعادة بناء الرؤية. تعتمد هذه الوكالة على مجموعتين مميزتين من الأدوات:
1. أدوات إدراك الرؤية التي تكشف الأدلة النصية والرمزية والمكانية.
2. أدوات تفاعل بصرية تسمح بالتلاعب في السياق البصري وتتبع المسارات والتحقق من العلاقات المكانية.
ولضمان فعالية أداء PERIA، تم تطوير طريقة تدريب موحدة تجمع بين تقنيات تفاعلية وآليات مكافآت مركبة، بالإضافة إلى تحسين السياسات باستخدام (Observation-Relaxed Group-in-Group Policy Optimization - OR-GIGPO).
تظهر النتائج التجريبية على 13 معيارًا من 8 مجموعات بيانات أن PERIA-8B تتفوق على الطرازات السابقة على مستويات متعددة، حيث حققت زيادة بنسبة 10% في المعايير الداخلة و4.4% في المعايير الخارجة عن التوزيع.
إن هذه التحسينات تعكس فعالية PERIA في تعزيز قدرات التفكير المكاني، مما يجعلها قريبة في الأداء من نماذج أكبر مثل Qwen3-VL-235B-A22B-Thinking وGPT-5. يعد هذا التطور الجديد خطوة مهمة نحو تحقيق تفاعل بصري ذكي ومتعدد الأبعاد!
ثورة جديدة في الذكاء الاصطناعي: تقديم الوكلاء البصريين المعززين بالأدوات لتحسين التفكير المكاني!
تعتبر الوكالة البصرية المعززة بالأدوات (PERIA) إنجازًا ثوريًا في عالم الذكاء الاصطناعي، حيث تساعد في تحسين قدرات التفكير المكاني بشكل كبير. يتيح هذا النظام أداءً متميزًا في المهام المتعلقة برؤية الخرائط والتفاعل البصري.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
