في خطوة جديدة ومثيرة في عالم الذكاء الاصطناعي، تقدم الدراسة المفاهيمية التي تحمل عنوان 'PanoWorld' نهجًا مبتكرًا لفهم المشاهد باستخدام مدخلات بانورامية بزاوية 360 درجة. التحدي الرئيسي الذي تواجهه النماذج متعددة الاستخدامات (Multimodal Large Laboratory Models) هو صعوبة الفهم المكاني تحت مفهوم الصورة المهيمنة، حيث ترث هذه النماذج مجال رؤية ضيق يشبه الإدراك البشري.

تتيح تقنيات الاستشعار البانورامي بزاوية 360 درجة شكلًا مرتفعًا من الاستشعار عن البيئة المحيطة من زاوية شاملة، مما يعد بحل فعال للعديد من التطبيقات العملية مثل التنقل والبحث الروبوتي وفهم المشاهد الثلاثية الأبعاد. رغم ذلك، فإن خط أنابيب النماذج متعددة الاستخدامات الحالي يحلل البانوراما إلى وجهات نظر متعددة، مما يترك الهيكل الكروي للتصوير المستوي شبه خفي.

تمحورت هذه الدراسة حول فكرة 'الفهم البانورامي الأصلي'، والتي تتطلب من نموذج اللغة الكبيرة التفكير في البانوراما على أنها مساحة مستمرة ومركزها المراقب. لهذا الغرض، تم تحديد القدرات الرئيسية المطلوبة لهذا الفهم، بما في ذلك الربط الدلالي، والموضع الكروي، وتحويل إطار الإشارة، والتفكير المكاني العميق.

كما تم بناء خط أنابيب كبير للبيانات لتوفير إشراف مدرك للهندسة ومؤسس على اللغة، حيث ينظم البيانات بطريقة تحسن من قدرة النموذج على التكيف مع هذه المدخلات الفريدة.

أحد الابتكارات الرئيسية هو تقديم نموذج 'PanoWorld' الذي يدمج هندسة كروية في تدفق البيانات البصرية، مما يعزز قدرة النموذج على الفهم المكاني. علاوة على ذلك، تم تطوير معيار تشخيصي يسمى 'PanoSpace-Bench' لتقييم دقة التفكير المكاني لنماذج التصوير البانورامي.

أظهرت التجارب أن 'PanoWorld' يتفوق بشكل كبير على الأسس المتاحة سواء كانت تجارية أو مفتوحة المصدر، مما يؤكد الحاجة إلى إشراف بانورامي متفرد وتكيفٍ مدركٍ للهندسة للحصول على نتائج موثوقة وفعالة. يتم الآن نشر جميع الأكواد المصدرية والبيانات المقترحة للجمهور.