في عالم القيادة الذاتية، يعتمد الأمان والكفاءة بشكل كبير على القدرة على فهم سلوك السائقين البشريين. لذلك، تطوير نماذج توقع الانتباه يعد عنصرًا أساسيًا لتحسين هذه التكنولوجيا. ومع ذلك، تواجه التكنولوجيا الحديثة تحديات بسبب نقص البيانات الدقيقة التي تركز على الكائنات، حيث تقتصر معظم القواعد البيانات المتاحة على مستوى المشهد فقط.
الابتكار الجديد الذي تمت الإشارة إليه في ورقة بحثية حديثة، يتضمن إنشاء مجموعة بيانات جديدة تُعرف باسم G-W3DA، حيث تركز على الانتباه على مستوى الكائنات. بالاعتماد على نماذج اللغة والرؤية، تلعب هذه النظام دورًا محوريًا في تقديم معلومات دقيقة تؤدي إلى تحسين التفاهم بين البشر والآلات.
من خلال دمج نموذج اللغة المتعدد الوسائط مع نموذج Segment Anything Model 3 (SAM3)، تم إجراء تحليل عميق وفصل خريطة الحرارة إلى أقنعة كائنات، مما يضع حلاً فعالًا لمشكلة هالات التعليق.
يتضمن الإطار المعتمد، المعروف بـ DualGaze-VLM، استخراج الحالات المخفية لاستفسارات دلالية وتعديل الميزات البصرية عبر بوابة SE-C Condition-Aware، مما يضمن دقة في تثبيت الانتباه وفقًا للنوايا الخاصة. وقد أسفرت التجارب الكثيرة التي أُجريت على معيار W3DA عن نتائج مبهرة، حيث تم تحقيق تحسين بنسبة تصل إلى 17.8% في قياسات التوافق المكاني.
علاوة على ذلك، أثبت اختبار تورينغ البصري أن خرائط الانتباه التي أنشأها DualGaze-VLM بدت واقعية لـ 88.22% من المقيمين، مما يدل على قدرته على توليد تمثيلات عقلية منطقية. يعد هذا البحث خطوة مهمة نحو تحسين الأنظمة الذاتية وجعلها أكثر ذكاءً وأمانًا في المستقبل.
من المشهد إلى الكائن: الابتكار في توقعات الانتباه المزدوج Guided by Text
تقدم دراسة جديدة إطار عمل مبتكر لتوقعات الانتباه المزدوج، مما يعزز القيادة الذاتية بفضل بيانات دقيقة على مستوى الكائن. تطبيقات هذا البحث يمكن أن تسهل تحقيق القيادة الآمنة والذكية في المستقبل.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
