في عالم الذكاء الاصطناعي المتطور، تثير نتائج الدراسات الجديدة حول نماذج اللغة والرؤية (Vision-Language Models) أسئلة مثيرة حول دقتها في قراءة النصوص القديمة. تُظهر هذه النماذج قدرة مثيرة للإعجاب في إنتاج نصوص تبدو صحيحة، لكنها غالبًا ما تعتمد على نماذج لغوية سابقة، مما يجعل النتائج أقل ارتباطًا بالواقع البصري.
بحث متخصص أجري على نصوص يونانية قديمة ذات موارد محدودة أظهر أن هذه النماذج يمكن أن تُخطئ بشكل كبير، وتُنتج نصوصًا مقبولة بشكل لغوي لكنها لا تعكس الحقيقة البصرية للنصوص المقدمة. وعند مقارنة النماذج الحديثة مع تقنيات التعرف التقليدية (OCR)، كانت النتائج مثيرة للدهشة.
أدخل الباحثون تقنيات جديدة مثل التشويش المدروس للصورة، وتحليل مستوى الرموز لتقييم كيفية تعامل النماذج مع تغير البصر. نتج عن هذا أن النماذج الحديثة، رغم قدرتها على إنشاء نصوص لغوية مسيسة، إلا أنها تفقد الاتصال بالصورة الفعلية بشكل كبير. أما نماذج التعرف التقليدية، فقد أظهرت دقة أكبر في التعرف على الحقائق البصرية.
تسائلت الدراسة أيضاً عن مدى فعالية التدخلات أثناء عملية القراءة وكيف أن النماذج قد تُصلح بعض الأخطاء اللغوية بعد الانتهاء من القراءة، مما يظهر أن الاعتماد على المعلومات السابقة لن يُصلح الأخطاء التي نشأت بسبب الفشل في فهم الصورة.
في النهاية، تطرح هذه النتائج تساؤلات هامة حول حدود الذكاء الاصطناعي في قراءة وفهم النصوص التاريخية، ودورها في تمهيد الطريق للأبحاث المستقبلية التي تهدف إلى تعزيز تفسير النماذج وتقييمها بناءً على دقتها البصرية.
فشل نماذج اللغة والرؤية في فهم النصوص القديمة: هل للذكاء الاصطناعي حدود؟
تسلط دراسة جديدة الضوء على فشل نماذج اللغة والرؤية (Vision-Language Models) في قراءتها للنصوص القديمة، رغم إنتاجها لنصوص تبدو مقبولة. هل يمكن للذكاء الاصطناعي حقاً فهم ما لا يراه؟
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
