في عالم الذكاء الاصطناعي، لا تقتصر الإنجازات على تطوير نظم فعالة فحسب، بل تشمل أيضاً التحديات التي تواجه هذه الأنظمة عند تطبيقها في سياقات جديدة. ورغم أن نماذج الرؤية واللغة (Vision-Language Models - VLMs) أظهرت قدرة كبيرة في مهام الاستدلال، إلا أن التساؤل الذي يطرح نفسه: هل يمكن لهذه النماذج أن تستنتج بفعالية تحت تغيير توزيع البيانات؟

في دراسة حديثة نشرت على منصة arXiv، قام الباحثون بدراسة قدرة نماذج VLMs على معالجة تغيرات covariance، حيث يتغير توزيع المدخلات الإدراكية دون تغيير قواعد التنبؤ الأساسية. وقد شملت الدراسة تحديات استدلالي بصري يتطلب من النموذج الإجابة عن استفسارات معينة استناداً إلى صور وقواعد منطقية معرفية.

أظهرت النتائج أن نماذج VLMs المدربة بالتقنيات المعتمدة على التدرجات (gradient-based end-to-end training) تستطيع تحقيق دقة عالية عند التعامل مع بيانات مماثلة، لكنها تفشل في التعرف على الأنماط عند وجود تغييرات في التوزيع، مما يشير إلى أن عملية ضبط النموذج لا تعكس بالضرورة الوظيفة العقلية الأساسية للاستخلاص.

هذا الأمر يدفع الباحثين إلى تبني منظور عصبي-رمزي (Neuro-Symbolic) يعزل الإدراك عن الاستدلال. ومع ذلك، ثبت أن بعض الأساليب العصبية-الرمزية الحديثة، التي تعتمد على المكونات السوداء (black-box components) للاستدلال، تستطيع أن تظهر عدم اتساق في الصمود عبر المهام المختلفة.

لتجاوز هذه التحديات، قدم الباحثون طريقة جديدة تدعى VLC، تدمج بين التعرف على المفاهيم باستخدام VLMs والاستدلال الرمزي القائم على الدوائر. يتيح هذا النظام الجديد تجميع قواعد المهام في برنامج رمزي، وهو بالذات دائرة تنفذ القواعد بشكل دقيق على المفاهيم المعترف بها بواسطة نماذج VLM.

أظهرت التجارب المنفذة على ثلاث مهام بسيطة من الاستدلال البصري، مع مجموعات قواعد متنوعة، أن طريقة VLC تحقق باستمرار دقة أعلى في المهام عند استخدام بيانات خارج التوزيع مقارنة بالأساليب الأخرى.

هذه النتائج تفتح آفاقاً جديدة في مجال الذكاء الاصطناعي، حيث تبشر بتطوير نماذج أكثر فعالية في مجالات الرؤية واللغة. نحن في انتظار المزيد من الابتكارات في هذا المجال.

ما رأيكم في تأثير هذه النتائج على مستقبل الذكاء الاصطناعي؟ شاركونا أفكاركم في التعليقات!