في عالم الذكاء الاصطناعي المتقدم، يعتبر تحسين الأداء ودقة نماذج الرؤية واللغة (Vision-Language Models) أمرًا بالغ الأهمية. ومع تزايد استخدام هذه النماذج في مجموعة متنوعة من التطبيقات، تظهر تحديات جديدة تتعلق بدمج مخرجات نماذج متعددة، مما يزيد من مستويات عدم اليقين ويزيد من خطر الأخطاء المعروفة بالهلوسة (Hallucination).

وهنا يأتي دور SCoOP (Semantic-Consistent Opinion Pooling)، الإطار الثوري الذي يهدف إلى تحسين هذا الدمج. يعتمد SCoOP على مبدأ تجميع الآراء بشكل مبتكر بدون الحاجة إلى تدريب إضافي، حيث يعالج عدم اليقين كمؤشر موحد لكل نموذج. يعتبر كل نموذج كخبير probabilistic يجمع مخرجات متعددة، ويقوم بتوجيهها إلى فضاء موحد لإنتاج تقييم موحد لمستوى عدم اليقين.

بينما تعتمد الأساليب السابقة على تحليل نماذج فردية، يضمن SCoOP قياس عدم اليقين على مستوى النظام ككل، مما يمكّن من اكتشاف الهلوسة ومعالجة العينات ذات عدم اليقين العالي بشكل فعال.

وعلى سبيل المثال، في اختبار ScienceQA، حقق SCoOP درجة 0.866 للكشف عن الهلوسة، متفوقًا بنسبة 10-13% على الأساليب التقليدية، بالإضافة إلى تحقيق درجة 0.907 لمعدل الاستغناء (Abstention) بفارق 7-9%.

ومع هذه النتائج المذهلة، يوفر SCoOP وقت تجميع بسيط يبلغ ملي ثانية، مما يجعله فعّالًا مقارنة بوقت استدلال نماذج الرؤية واللغة الذي عادة ما يستغرق ثوانٍ.

لذا، يبدو أن SCoOP يقدم آلية فعالة ومسؤولة لتجميع الآراء مع زيادة الوعي بعدم اليقين، مما يعزز من موثوقية الأنظمة الذكية المتعددة المستويات.