في عالم الذكاء الاصطناعي، تُظهر نماذج اللغة متعددة الوسائط (VLMs) تقدمًا ملحوظًا في تنفيذ المهام المعقدة. ومع ذلك، فإنها ما تزال تواجه تحديات في التفكير المكاني، خاصة عندما تكون المعلومات الحيوية مخفية عن الأنظار. تتطلب العديد من السيناريوهات الفكرية أساليب إدراك تخيلية، مما يساعد الأنظمة على استنتاج المعطيات من وجهات نظر غير مرئية، وتتبع المسارات من خلال المسافات المخفية، ودمج الملاحظات الجزئية في تمثيلات مكانية منسجمة.
لذلك، تم تقديم رموز الإدراك الإبداعي (Imaginative Perception Tokens - IPT) كحل مبتكر. تمثل هذه الرموز تمثيلات إدراكية متوسطة توضح ما يمكن أن يدركه نموذج في ظل تكوينات مكانية بديلة، مع ضمان التناسق مع المدخلات المرصودة.
في إطار اختبار هذه الإمكانيات، تم تصميم ثلاثة مهام رئيسية: أخذ المنظور (Perspective Taking - PET)، تتبع المسار (Path Tracing - PT)، وعدّ الزوايا المتعددة (Multiview Counting - MVC). وقد تم إنشاء مجموعات بيانات تحتوي على ما يقرب من 20,000 مثال مع إجابات حقيقية ومعايير تقييم.
من خلال استخدام نموذج VLM المتكامل BAGEL كالنواة الأساسية، أثبتت إشرافية IPT أنها تحسن بشكل ملحوظ من الأداء في التفكير المكاني، وغالبًا ما تتفوق على التدريب القائم على تسلسل الأفكار النصية، حتى بدون الحاجة إلى توليد الصور أثناء وقت الاستدلال.
على مستوى مهمة عد الزوايا المتعددة (MVC)، حققت رموز IPT زيادة في الدقة بنسبة 3.4% وتنافس في الأداء مع نماذج مغلقة قوية في مهمة تتبع المسار (PT). أظهرت النتائج أن دمج IPT مع إشراف بالاعتماد على الملاحظات فقط يؤدي إلى تعزيز إضافي في الأداء، بينما يمكن أن يؤدي الاعتماد على تسلسل الأفكار النصية إلى تدهور كبير في الأداء، مما يشير إلى وجود عدم تطابق عند إجراء العمليات المكانية من خلال اللغة.
بشكل عام، تقدم رموز الإدراك الإبداعي (IPT) إشارة إشراف مبدأية لتحليل البنية المكانية غير المرصودة، مما يحسن من قدرة النموذج على التجريد بالإضافة إلى إنتاج تمثيلات متوسطة قابلة للتفسير.
تعزيز الإدراك الإبداعي: ثورة جديدة في نماذج اللغة متعددة الوسائط لتحسين التفكير المكاني!
تعرّف على كيفية تطوير نماذج اللغة المتعددة الوسائط (VLM) من خلال إدخال رموز الإدراك الإبداعي (IPT) لتعزيز القدرة على التفكير المكاني واستنتاج المعلومات الغير مرئية. ابتكارات مذهلة ستغير طريقة تعاملنا مع البيانات المكانية!
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
