في عالم الذكاء الاصطناعي (AI)، يطرح السؤال: "هل تستطيع النماذج البصرية رؤية الأشياء بالفعل، أم أنها تعتمد فقط على اللمحات السطحية؟" نسلط الضوء في هذه الدراسة على قيود النماذج بطريقة جديدة مستندة إلى فلسفة فيتجنشتاين، حيث نعتبر قدرة النموذج على التعرف على الأشياء محصورة بنظام الوصف الذي تعلمه.

تستخدم النماذج البصرية الحالية غالبًا تمثيلات سمات مستقاة من الإحصاءات المحلية. ولذلك، يتعين علينا التساؤل عما إذا كان بإمكان النموذج التصنيف بشكل صحيح عند عدم توفر أي أساس ثابت من هذه السمات المحلية.

نطرح السؤال من خلال مسافة نحوية (Syntactic Distance) تقيس تميُز الفئات من خلال تماثل العمليات التي تربط فئة بأخرى، حيث تبرز المسافة الإيجابية السمات المحلية القابلة للاستغلال، بينما تتطلب المسافة الصفرية دلالات عالمية بدلاً من قواعد محلية.

قمنا بتصميم مهمة بصرية ذاتية الإشارة في ضوضاء ثنائية الحد الأقصى: حيث تحتوي العينات الإيجابية على مربع مغلق، بينما تحتوي العينات السلبية على مربع مطابق له مع تغيير بكسل على الحدود. والفئتان تختلفان في الدلالات العالمية ولكن الفئة تتخطى المسافة النحوية، مما يجعل الاختصارات الإحصائية المحلية غير موثوقة.

أظهرت التجارب على نماذج ResNets وVision Transformers ظاهرة انتقال مرحلي متسقة، حيث تنهار الدقة إلى مستوى التخمين العشوائي بمجرد تجاوز حجم الصورة نقطة حرجة ولا تتعافى في النطاقات المختبرة.

يسلط الضوء على أن حجم مجموعات البيانات والنماذج الأكبر فقط يؤخر هذا الانهيار، بينما تصل نماذج ViTs ذات الانتباه العالمي إلى النقطة الحرجة في وقت سابق. هذه النتائج تكشف عن حدود القدرات الهيكلية للعمارة الحالية فيما يخص المهام المرتبطة بالمفاهيم العالمية، مما يقترح أن الذكاء العام قد يتطلب إنشاء لغة جديدة، بدلاً من إعادة استخدام لغة موجودة.

ما رأيكم في هذا التطور المثير حول قدرات النماذج البصرية؟ شاركونا آرائكم في التعليقات!