في عالم الذكاء الاصطناعي، برزت نماذج رؤية اللغة (Vision-Language Models) كأداة قوية تتسم بقدرات عالية على الإدراك والتفكير. ومع ذلك، أظهرت هذه النماذج محدوديات في الفهم البيئي، حيث تصطدم عادة بعراقيل أثناء التفاعلات أو تعتمد بشكل مفرط على بيانات البيئة أثناء تنفيذ المهام. لمواجهة هذه التحديات، تم طرح إطار عمل مبتكر يسمى نموذج البيئة المعزز (Environmental Understanding Embodied Agent - EUEA).

يعتمد إطار العمل EUEA على تحسين أربع مهارات أساسية:
1. **إدراك الكائنات** (Object Perception): لتحديد الكائنات المهمة.
2. **تخطيط المهام** (Task Planning): لإنشاء أهداف فرعية للتفاعل.
3. **فهم الأفعال** (Action Understanding): لتقييم احتمالية النجاح.
4. **التعرف على الأهداف** (Goal Recognition): لتحديد اكتمال المهام.

من خلال تحسين هذه المهارات الأربعة، يمكن لنموذج البيئة المعزز أن يسهم في تنفيذ المهام بشكل أكثر موثوقية. كما تمت إضافة خطوة استرداد تستخدم هذه المهارات الأساسية، ومرحلة تحسين السياسات النسبية (Group Relative Policy Optimization - GRPO) التي تساهم في تصحيح التنبؤات غير المتسقة. إذ تقوم خطوة الاسترداد بتجربة خيارات بديلة للتصحيح، بينما تقوم GRPO بتحسين التنبؤات لضمان تحقيق الأهداف المطلوبة.

عبر مجموعة مهام ALFRED، أبدى نموذج EUEA أداءً متفوقًا بشكل مذهل، حيث سجل تحسينًا قدره 8.86% في معدل النجاح مقارنة بأساسيات نسخ السلوك. كما أضافت خطوات الاسترداد وGRPO زيادة إضافية تصل إلى 3.03% في الأداء العام.

كشفت التحليلات المتعمقة للمستويات المهارية عن قيود رئيسية في الفهم البيئي لنماذج الرؤية واللغة، سواء المفتوحة أو المغلقة، مما يسلط الضوء على القدرات اللازمة لتفاعل فعال بين الوكلاء والبيئة.

إذاً، كيف يمكن أن يسهم نموذج البيئة المعزز في تطوير أداء الذكاء الاصطناعي في المستقبل؟ شاركونا آراءكم في التعليقات!