في عالم الذكاء الاصطناعي، توفر نماذج الرؤية واللغة والإجراء (Vision-Language-Action Models) فرصاً رائعة للتفاعل بين الإنسان والآلة. ومع ذلك، تواجه هذه النماذج تحديات حين يتعلق الأمر بالأوامر الشخصية والمتخصصة، مثل 'اجلب كأسك'، حيث تحتاج الروبوتات إلى تنفيذ مهام دقيقة بناءً على أوامر محددة.

تحديد الكأس ضمن مجموعة من الأشياء المرئية المشابهة ليس بالأمر السهل، ولكن فريق البحث قام بتطوير تقنية مبتكرة تُعرف بالتوجيه البصري الذكي (Visual Attentive Prompting - VAP). تهدف هذه التقنية إلى تزويد نماذج VLA بخاصية انتباه انتقائي من أعلى لأسفل، مما يُمكنها من التعرف على الأغراض الشخصية للمتستخدم والتفاعل معها بفعالية.

كيف تعمل التقنية؟ تقوم VAP بمعالجة الصور المرجعية كذاكرة بصرية غير معلمة، مما يساعد الروبوت على تحديد الأغراض الشخصية من خلال الكشف المفتوح واستخدام أساليب المطابقة ذات القاعدة البصرية. بعد ذلك، يتم إعادة صياغة الأوامر من خلال تسليط الضوء على الكائن المطلوب وتعزيز التعليمات، مما يجعل عملية التفاعل أكثر سلاسة ودقة.

لتقييم فعالية هذه التكنولوجيا، أُنشئت محاكاة Benchmark مثل Personalized-SIMPLER وPersonalized-VLABench، بالإضافة إلى اختبار واقعي لتحسين التفاعل بين الروبوتات المختلفة. وأظهرت التجارب أن VAP تُحقق نجاحاً أرفع في تنفيذ الأوامر المعقدة مقارنة بالاستراتيجيات العامة، مما يسد الفجوة بين الفهم الدلالي والسيطرة على الكائنات الفردية.

ما رأيكم في الابتكارات التي تحدثها التقنيات الذكية مثل VAP في تفاعلنا اليومي مع الروبوتات؟ شاركونا آرائكم في التعليقات!