تشهد نماذج الرؤية واللغة (VLMs) تقدمًا ملحوظًا في مجالات التفكير والتفاعل بين النصوص والصور. لكن كيف تتم هذه العملية؟ وما تأثير المعلومات المختلفة على قرارات النماذج؟ تحاول دراسة حديثة مكونة من 18 نموذجًا تحليل ديناميكيات التفكير في هذه الأنظمة.
في هذه الدراسة، تم تقييم نماذج تم تدريبها على التفكير وقابليتها للتفاعل مع التعليمات. تم تتبع مستوى الثقة خلال "سلسلة التفكير" (Chain-of-Thought) وقياس التأثير التصحيحي للتفكير، حيث وجدت النتائج أن النماذج تميل إلى الثبات في إجاباتها، مما يعني أن التزاماتها السابقة بالتوقعات يتم تعزيزها بدلاً من مراجعتها خلال مراحل التفكير.
بينما أظهرت النماذج التي تم تدريبها على التفكير سلوكًا تصحيحيًا أقوى، فإن هذه المكاسب تعتمد على ظروف النمط، من البيئات النصية إلى البصرية فقط. من خلال استخدام تدخلات محكومة مع إشارات نصية مضللة، تبين أن النماذج تتأثر باستمرار بهذه الإشارات حتى في الحالات التي تكون فيها الأدلة البصرية كافية. تأكدنا أيضًا من قابلية استعادة هذه التأثيرات من سلسلة التفكير، حيث تختلف قابلية كشف هذا التأثير حسب النموذج والمعلومات التي يتم مراقبتها.
على الرغم من أن النماذج المدربة على التفكير تشير بشكل أكثر وضوحًا إلى هذه الإشارات، فإن تدفقات التفكير الأطول والأكثر سلاسة قد تبدو متماسكة بصريًا بينما تتبع في الواقع إشارات نصية، مما يعقد فهم الاعتماد على الأنماط. وعلى العكس، تذكر النماذج التي تم تدربيها وفق التعليمات هذه الإشارات بشكل أقل وضوحًا، لكن آثارها القصيرة تعكس تناقضات مع المدخلات البصرية.
تعتبر النتائج مجتمعة إشارة واضحة إلى أن "سلسلة التفكير" توفر رؤية جزئية فقط عن كيفية قيادة الأنماط المختلفة لقرارات نماذج الرؤية واللغة، مما يحمل تبعات مهمة على الشفافية والسلامة في الأنظمة متعددة الأنماط.
ديناميكيات التفكير وحدود الاعتماد على أنماط المراقبة في نماذج الرؤية واللغة
تقدم نماذج الرؤية واللغة (VLMs) إمكانيات تفكير مذهلة، لكن كيفية تداخل المعلومات المرئية والنصية لا تزال تتطلب استكشافًا أكبر. تكشف دراسة جديدة عن ديناميات التفكير في 18 نموذجًا، مؤكدة على تأثير السياقات النصية حتى في وجود أدلة بصرية كافية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
