تعتبر نماذج الفهم المكاني من التحديات الرئيسية التي تواجه نماذج الرؤية-اللغة (Vision-Language Models) في مجال الذكاء الاصطناعي. لا يزال من غير الواضح ما إذا كان هذا الفهم يتم اكتسابه بالفعل، وإذا كانت الإجابة بنعم، فما الآليات التي تقف وراء ذلك. في دراسة حديثة، تم تقديم منصة اختبار تحكمية تستند إلى الصور والنصوص لاستكشاف كيف يظهر الفهم النسبي بين اليمين واليسار في نماذج تعتمد على Transformer وتستخدم هدفًا تدريبيًا بأسلوب CLIP.

تم تدريب نماذج مصغرة تعتمد على Transformer في بيئة مغلقة، باستخدام أوصاف متزاوجة لمشاهد تحتوي على كائن واحد أو كائنين. كما جرى تقييم قدرة النموذج على التعميم على أزواج الكائنات غير المرئية، مع تعديل تنويع التسمية وتخطيط المشاهد بشكل منهجي. وأظهرت النتائج أن التدريب من خلال التناقض (Contrastive Training) يُمكن النموذج من تعلم العلاقات بين اليمين واليسار، حيث تبين أن تنويع التسمية كان المحرك الرئيسي للتعميم أكثر من تنويع التخطيط.

لكي نحظى بفهم آلي للعمليات الداخلية، قمنا بإجراء تحليل الانتباه (Attention Decomposition)، حيث أظهرنا أن التفاعلات بين تمثيلات الوضعية (Positional Embeddings) وكلمات التوكن (Token Embeddings) تثير تدرج انتباه أفقي يكسر التناظر بين اليمين واليسار في نماذج الترميز. وعندما تم إلغاء هذا العنصر، انخفضت القدرة على التمييز بين اليمين واليسار بشكل كبير. توفر هذه النتائج رؤى آلية حول متى وكيف تصبح نماذج بأسلوب CLIP قادرة على اكتساب الكفاءة في العلاقات.

إذا كنتم مهتمين بكيفية تطور الذكاء الاصطناعي في فهم العلاقات المكانية، لا تترددوا في مناقشة هذا الموضوع معنا في التعليقات!