في عالم الذكاء الاصطناعي، تحقق نماذج اللغات المتعددة الوسائط (Multimodal Large Language Models) تقدماً ملحوظاً، ولكنها تواجه تحديات كبيرة في فهم الصور المتعددة بشكل دقيق. هذه التحديات تتضمن الهلاوس المكانية (spatial hallucination) وتسرب الانتباه (attention leakage) وفشل في الحفاظ على تماسك الأجسام (object constancy).
للتغلب على هذه العراقيل، تم تقديم إطار عمل جديد يُعرف بـ CGC (Compositional Grounded Contrast)، والذي يعد بمثابة ثورة في طريقة فهم الصور المتعددة بتكاليف منخفضة. يعتمد CGC على التعليقات التوضيحية الأخرى للصور المفردة، ويقوم ببناء حالات تدريب متعددة الصور من خلال الاعتماد على مبدأين رئيسيين: التباين بين الصور (Inter-Image Contrast) والتباين داخل الصورة (Intra-Image Contrast). هذه المكونات تسهم في تقديم سياقات مشوشة مفصولة معنوياً لتعزيز التميز بين الصور، وتحسين إمكانية الحفاظ على تماسك الأجسام.
علاوة على ذلك، يقدم CGC تحسينات جديدة في تخصيص المصدر (source-image attribution) والمحاذاة المكانية (spatial alignment) من خلال إدخال مكافأة قائمة على القاعدة ضمن إطار عمل GRPO. هذا يحقق نتائج هيكلية أكثر دقة وقوة.
تظهر التجارب أن CGC يحقق نتائج متقدمة على المعايير المعروفة الخاصة بفهم الصور المتعددة، مثل MIG-Bench وVLM2-Bench. كما يظهر أن هذه القدرات يمكن أن تنتقل أيضًا إلى مهام فهم وحجة متعددة الوسائط أوسع، مما يؤدي إلى تحسينات مستمرة على نموذج Qwen3-VL-8B في مجالات مثل MathVista وMuirBench.
CGC ليس مجرد نموذج جديد، بل هو خطوة نحو مستقبل يحقق فيه الذكاء الاصطناعي إنجازات كبيرة في فهم البيئات المعقدة. كيف ترى تأثير هذه التقنية على تطور الذكاء الاصطناعي في السنوات القادمة؟ شاركونا آراءكم!
ثورة في فهم الصور المتعددة: CGC يعيد تشكيل الذكاء الاصطناعي!
تقدم دراسات جديدة نموذج CGC الذي يحل العديد من تحديات فهم الصور المتعددة بدقة عالية، مما يفتح آفاق جديدة لتطبيقات الذكاء الاصطناعي. اكتشافات مثيرة تضمن نتائج متقدمة في الأداء!
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
