في عالم الذكاء الاصطناعي المتطور، ظهرت تقنيات جديدة تسعى لتجسيد عملية الاستدلال بلغة مدمجة بين الصور والنصوص. وفي هذا الإطار، قدم باحثون تقنية جديدة مثيرة تُعرف باسم Grounded Reasoning with Images and Texts (GRIT)، التي تهدف إلى تعليم نماذج اللغات الضخمة (MLLMs) كيفية التفكير باستخدام الصور.

تستند GRIT إلى مفهوم الاستدلال المدمج، حيث يمكن للنماذج توليد سلاسل من التفكير تجمع بين اللغة الطبيعية ومعلومات مرئية تتعلق بمناطق معينة من الصور. تُظهر الدراسات الأخيرة أن استخدام التعلم التعزيزي (Reinforcement Learning - RL) يعزز قدرة النماذج على بناء نماذج تفكير تتبع سلسلة من المنطق قبل الحصول على الإجابة النهائية.

على الرغم من التقدم المستمر في مجال الاستدلال بين الرؤية واللغة، تفتقر النماذج الحالية إلى دمج المعلومات المرئية بشكل صارخ، مما يعوق قدرتها على إنتاج استدلالات واضحة ومرتبطة بصرياً. تقدم GRIT حلاً فريداً لهذه المشكلة، حيث تعتمد على خوارزمية GRPO-GR، التي تستخدم مكافآت مدروسة تركز على صحة الإجابة النهائية وشكل الناتج.

ما يجعل GRIT بارزاً هو كفاءته العالية في استخدام البيانات، حيث يحتاج إلى 20 مجموعة فقط من الأسئلة والأجوبة المرتبطة بالصور لتحقيق نتائج فعالة. أظهرت التقييمات الشاملة أن GRIT يمكنه تدريب نماذج اللغات الضخمة على إنتاج سلاسل تفكير مترابطة ومبنية على أساس بصري، مما يحقق توحيداً ناجحاً بين قدرتي الاستدلال والأرضية.