في عالم الذكاء الاصطناعي، تبرز النماذج اللغوية الضخمة متعددة الوسائط (MLLMs) كأدوات قوية لتصنيف الصور بناءً على أمثلة قليلة مُعلمة. ومع ذلك، يبقى سؤال كيفية استخدام هذه النماذج للسياق المقدم دون إجابة. تعكس المعلومات الجديدة أن تقديم تفسيرات مفهومة يفوق التنبؤ تطورًا وتعقيدًا.
استخدمت دراسات حديثة نهجًا يسمى Chain-of-Thought prompting، ولكن اتضح أنه قد لا يعكس العمليات الداخلية الحقيقية للنموذج. لقد قامت الدراسة بتقييم منهجي لتفسير المفاهيم داخل النماذج المجمدة (frozen MLLMs) في إطار التعلم السياقي القليل باستخدام خمسة شروط تزداد صرامة. تم تقييم أربعة من أحدث نماذج MLLMs بواسطة خط أنابيب مستقلاً تقييم LLM-as-a-judge.
نتائج الدراسة تظهر أن عملية التفسير تتطلب جهدًا أكبر من مجرد التنبؤ. كلما حاولت النماذج إنتاج تفسيرات مرتبة رسميًا تعتمد على المفاهيم، انخفضت دقتها التنبؤية تدريجيًا من 93.8% إلى 90.1%. هذا يتناقض مع الفرضية التي تفترض أن التفكير الواضح يعزز الأداء. ومع ذلك، عندما كانت النماذج قادرة على توضيح الخصائص البصرية المميزة للفئات، برزت علاقة قوية بين جودة التفسير والتنبؤ الصحيح.
تظهر هذه النتائج أن نماذج MLLMs بارعة في التصنيف البصري، لكنها تفتقر إلى التوجيه اللازم لإنتاج تفسيرات رسمية وقابلة للتحقق آليًا. لماذا تعتقد ذلك؟ شاركونا آرائكم في التعليقات.
فهم العمليات الداخلية لنماذج الذكاء الاصطناعي: لماذا يعد التفسير أصعب من التنبؤ؟
تُظهر الأبحاث الجديدة أن نماذج اللغات الضخمة متعددة الوسائط تواجه تحديات كبيرة في تقديم تفسيرات واضحة ومعبرة عن قراراتها. رغم قدراتها العالية في التصنيف، فإن محاولات شرح هذه النماذج تؤدي إلى انخفاض في دقتها.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
