في عالم الذكاء الاصطناعي، تكتسب مهام اتخاذ القرار في الرؤية واللغة مكانة خاصة، لا سيما في مجالات التوجيه والمناورة الروبوتية. تبرز نماذج الرؤية واللغة (Vision-Language Models) ونماذج الرؤية واللغة-العمل (Vision-Language-Action Models) كأدوات قوية، حيث تتفوق الأولى في التخطيط على المدى الطويل، بينما تبرز الثانية في التحكم التفاعلي.

لكن يواجه العاملون في هذا المجال تحديًا كبيرًا يتمثل في ظاهرة "الهلاوس البصرية"، الناتجة عن عدم قدرة النماذج على التمييز بين العناصر المهمة التي تتعلق بالمهمة والعناصر المشتتة (Distractors). وهذا ما يعيق الأداء الفعلي لهذه النماذج.

لذلك، تظهر الحاجة إلى تحسين طرق عمليات إدراك المشهد لتعامل مع مثل هذه التحديات. هنا يأتي دور تقنية "SceneDiver"، حيث تقدم طريقة مبتكرة تعتمد على توليد خطة تركيز متدرجة من الخشن إلى الدقيق. تبدأ هذه الطريقة ببناء رسم بياني شامل للمشهد، مما يوفر فهمًا ابتدائيًا، ثم تُحلل المهمة إلى مشكلات فرعية أبسط من خلال دائرة تكرارية تشمل التعرف والفهم والتحليل.

بالإضافة إلى ذلك، تم تصميم ملحق خفيف الوزن يهدف إلى نقل قدرة التركيز المدروس إلى نماذج الرؤية واللغة-العمل، مما يحقق انسيابية في التحكم التفاعلي.

تظهر تقييمات لأنظمة الذكاء الاصطناعي المعتمدة، أن هذه الطريقة تقلل بشكل ملحوظ من الهلاوس البصرية لكل من نماذج الرؤية واللغة والنماذج التي تضم العمل، مع المحافظة على كفاءة الحوسبة في المهام التي تتطلب أداءً سريعًا. وقد تم نشر التعليمات البرمجية والبيانات الخاصة بهذه التقنية على الرابط: https://future-item.github.io/SceneDiver.

إذا كنت من المهتمين بعالم الذكاء الاصطناعي وتطوراته، فلا تفوت فرصة معرفة المزيد عن كيف يمكن لهذه التكنولوجيا تغيير المشهد التكنولوجي الحالي! ما رأيكم في هذا التطور؟ شاركونا في التعليقات.