تدخل رحلة علمية جديدة في عالم الإدراك البصري، حيث يقدم نموذج DINOv2 إمكانيات هائلة للتعرف على الأشياء والمشاهد والأفعال، لكن يبقى تساؤل أساسي: كيف يتم ذلك؟ يقترح البحث الجديد الذي يحمل عنوان "فرضية التمثيل الخطي (Linear Representation Hypothesis)" طرقاً مبتكرة لفهم كيفية تعامل النموذج مع المفاهيم المختلفة.

في إطار هذه الدراسة، تم استخدام الهياكل الذاتية للتشفير (SAEs) لإنشاء قاموس مكون من 32,000 وحدة، والذي يعد العمود الفقري لفهم النتائج. ينقسم البحث إلى ثلاثة أجزاء رئيسية. في الجزء الأول، يتم تحليل كيفية تجنيد المهام المختلفة للمفاهيم المستخرجة من القاموس المتعلم، وكشف نقاط التخصص الوظيفي: حيث يستفيد التصنيف من مفاهيم "Elsewhere" التي تنشط في جميع الأماكن ما عدا الأهداف المستهدفة، بينما تعتمد التقسيمات على كاشفات الحدود لتشكيل مجالات فرعية متجانسة.

أما تقدير العمق، فيستند إلى ثلاث إشارات عمق أحادي مطابقة لمبادئ علوم الأعصاب البصرية.

وعندما نغوص أعمق، نجد أن التمثيلات ليست مجرد تمثيلات نادرة، بل هي جزء منها كثيفة، في حين أن القاموس يتطور نحو تماسك أكبر. تشير النتائج إلى أن التمثيلات منظمة إلى ما هو أبعد من البساطة الخطية فقط، مما يقودنا إلى اقترح رؤية أكثر دقة: حيث يتم تشكيل الرموز من خلال مزج مقارب لنماذج مثالية، مثل الأرنب بين الحيوانات، واللون البني بين الألوان.

تستند هذه الهيكلية إلى فضاءات مفاهيم Gardenfors، حيث يقدم النموذج آلية متعددة الرؤوس تنتج مجموعات من المزيجات المقارنة، مما يحدد مناطق محددة بواسطة النماذج المثالية التي تمثلها.

إذًا، كيف يمكن أن تسهم فرضية تمثيل Minkowski (Minkowski Representation Hypothesis) في فهمنا؟ هذه الدراسة ليست مجرد بحث تقني، بل دعوة لاستكشاف أعمق لعالم الذكاء الاصطناعي وإدراك المشهد البصري.