تعتبر نماذج الذكاء الاصطناعي المتعددة الوسائط (Large Multimodal Models) من أحدث التطورات في مجال التكنولوجيا، حيث تم تصميمها لفهم ورؤية العالم من حولها عبر مجموعة متنوعة من المدخلات. ولكن، على الرغم من قدرتها المذهلة، إلا أن دراسة جديدة تحت عنوان InPhyRe تكشف عن وجود ثغرات كبيرة في قدرتها على تطبيق قوانين الفيزياء بشكل صحيح.

تستخدم هذه النماذج المعرفة المعطاة لها، التي تشمل القوانين الفيزيائية التي تم ملاحظتها خلال فترة التدريب، مثل قانون حفظ الزخم. هذا يمكّنها من تقديم إجابات عن استفسارات فيزيائية معقدة، كالتنبؤ بنتائج حوادث التصادم من مدخلات بصرية. لكن المشكلة تكمن في أن هذه المعرفة تقتصر على ما تم تدريبه سابقًا، مما يجعلها عاجزة عن التعامل مع سيناريوهات فيزيائية جديدة لم ترى مثلها من قبل.

بينما يمكن للبشر التكيف مع الظروف الجديدة عبر التجارب والمعطيات المقدمة، نجد أن النماذج تتعثر في هذا المجال الحساس، مما يضعها في موقف حرج يجب معالجته، خاصةً إذا كان من المزمع استخدامها في تطبيقات تتعلق بالسلامة.

تقدم الدراسة معيار InPhyRe، والذي يعد الأول من نوعه لقياس قدرة هذه النماذج على الاستنتاج الفيزيائي الاستقرائي. من خلال تقييم قدرة النماذج في التوقع بشأن نتائج تصادمات في مقاطع فيديو تم توليدها خوارزميًا، تم التوصل إلى عدة نتائج مثيرة:
1. تعاني النماذج من ضعف في تطبيق معرفتها المحدودة حول القوانين الفيزيائية العامة في عمليات الاستنتاج.
2. تفشل النماذج في الاستنتاج الفيزيائي الاستقرائي في ظل القوانين الفيزيائية الجديدة.
3. علاوة على ذلك، تُظهر النماذج تحيزًا لغويًا، مما يجعلها تتجاهل المدخلات البصرية، وهو ما يثير تساؤلات حول موثوقيتها.

في ضوء هذه النتائج، يظهر أهمية مواصلة الأبحاث لتحسين قدرات نماذج الذكاء الاصطناعي في مجالات مهمة تتعلق بالسلامة. كيف يمكن لهذه النماذج أن تطور من أساليبها لتجاوز هذه العقبات؟

أنتظر آرائكم وتجاربكم في التعليقات!