في عالم التعليم العلمي، يُعتبر الرسم اليدوي لأشكال علمية أحد الأدوات الأساسية التي يُستخدمها الطلاب للتعبير عن فهمهم. يعتمد هؤلاء الطلاب على هيكل بصري يعتمد على كائنات مرئية، صفاتها، وعلاقاتها. ومع تزايد استخدام نماذج اللغات المتعددة الأنماط (Multimodal Large Language Models - MLLMs) في تقديم تغذية راجعة على هذه الرسومات اليدوية، تبين أن مصداقية هذه التغذية راجعة تعتمد بشكل كبير على ارتباطها بالأدلة المرئية الفعلية في الرسومات.

أظهرت دراسة حديثة تناولت 150 رسمة لطلاب في المرحلة المتوسطة، مُقسمة على وحدات تتعلق بنظرية الجزيئات الحركية، أن 41.3% من تغذية راجعة النماذج المولدة تحتوي على أخطاء تتعلق بالتوافق البصري. وكشفت الدراسة عن أربع فئات لأخطاء التطابق: عدم مطابقة الكائنات، عدم مطابقة الصفات، عدم المطابقة في العلاقات، والغياب المزيف.

رغم أن تم استخدام استراتيجية منظمة لتقليل الأخطاء، فإن حوالي ثلث التغذية الرجعية لا زالت تعاني من مشكلة الفشل، مما يدل على أن المشاكل المعرفية العميقة لا يمكن حلها بسهولة عن طريق استراتيجيات التنبيه التقليدية. لم تُضف التعليقات المتأتية بصريًا قيمة تشخيصية كافية، مما يُظهر صعوبة النماذج في تقديم تقييم موثوق للرسومات.

تشير هذه النتائج إلى أن الفصل بين الأنماط (modal decoupling) يشكل عائقًا كبيرًا يتطلب تطوير آليات جديدة للتأكد من أن التغذية الراجعة الصادرة عن نماذج الذكاء الاصطناعي يمكن أن تكون فعلاً مفيدة في العملية التعليمية.