تعد نماذج الرؤية اللغوية (Vision-Language Models) من أبرز التطورات التقنية في الذكاء الاصطناعي، حيث يتم استخدامها بشكل متزايد في مجالات مثل المواد التراثية الثقافية، الأرشيفات الرقمية، والأنظمة التعليمية. ومع ذلك، تكشف دراسة حديثة عن مشكلة جوهرية تعيق قدرتها على تفسير القطع الأثرية التاريخية بدقة، وهي مشكلة "الأنكرونيسم الثقافي" (Cultural Anachronism).

تتمثل هذه الظاهرة في ميل النماذج إلى سوء تفسير التاريخ باستخدام مفاهيم، مواد، أو أطر ثقافية غير مناسبة زمنياً. ولتقييم هذا الانحياز، تم تقديم "مقياس الأنكرونيسم الزمني لنماذج الرؤية اللغوية" (Temporal Anachronism Benchmark for Vision-Language Models - TAB-VLM)، الذي يتضمن مجموعة بيانات تضم 600 سؤال موزعة على ست فئات مختلفة، تهدف لتقييم التفكير الزمني حول 1,600 قطعة أثرية ثقافية هندية تمتد من العصور ما قبل التاريخ إلى العصر الحديث.

تكشف التقييمات المنهجية التي أجريت على عشرة نماذج رائدة في هذا المجال عن وجود نقص كبير في الأداء، حيث بلغت دقة أفضل نموذج (GPT-5.2) نسبة 58.7% فقط. هذا الفجوة في الأداء تظل قائمة لدى نماذج ذات بنى مختلفة وأحجام متنوعة، مما يدل على أن الأنكرونيسم الثقافي يمثل قيداً مهماً في أنظمة الذكاء البصري، بغض النظر عن حجم النموذج.

تسلط هذه النتائج الضوء على الفجوة بين قدرات نماذج الرؤية اللغوية الحالية والمتطلبات اللازمة لتفسير المواد التراثية الثقافية بدقة، خصوصاً بالنسبة للثقافات البصرية غير الغربية التي تعاني من نقص في البيانات التدريبية. يوفر مقياس TAB-VLM أساساً لتحسين الفهم الزمني في أنظمة الذكاء الاصطناعي متعددة الوسائط التي تتفاعل مع القطع الأثرية التاريخية. للمزيد من المعلومات، يمكنكم زيارة صفحة المشروع.

ما رأيكم في هذه الدراسة؟ هل تعتقدون أن تحسين الفهم الزمني يمكن أن يحدث ثورة في كيفية تعامل الذكاء الاصطناعي مع التاريخ؟ شاركونا آرائكم في التعليقات.