في عالم الذكاء الاصطناعي، تبرز نماذج رؤية اللغة والإجراء (Vision-Language-Action - VLA) كإحدى الطفرات الرائدة في مجال الروبوتات العامة. تتبع هذه النماذج تصميمًا شائعًا حيث يتم تحويل التعليمات اللغوية والملاحظات البصرية إلى أفعال بشكل مباشر. ومع ذلك، يحمل هذا النهج تحديات، حيث يتطلب من الخبراء في الإجراءات إعادة تعلم القدرات المعرفية والإدراكية التي تم اكتسابها مسبقاً.

هنا يظهر نموذج AVP (Action with Visual Primitives) كمبتكر، حيث يقدم هيكلًا شاملًا يستخدم العناصر البصرية كواجهة رئيسية. يعمل هذا النموذج على استنتاج الهدف المستقبلي ويطلق رموز العناصر البصرية، مما ينظم عمل الخبير في الإجراءات بشكل أكثر فعالية.

نتائج التجارب الميدانية على الروبوتات الحقيقية تكشف عن أن نموذج AVP يعزز نسبة النجاح في المهام مقارنة بأساليب أخرى، محققًا زيادة قدرتها بنسبة 27.61%. وهذا يوضح فعاليته الفائقة وكفاءته في توزيع البيانات وفهم المشهد المكاني.

نموذج AVP لا يمثل مجرد خطوة فنية جديدة، بل يمكن أن يكون أحد المفاتيح لتطوير الروبوتات العامة في المستقبل. مما يجعلنا نتساءل، ما الآفاق الأخرى التي يمكن أن تُفتح بهذا النوع من الابتكار؟