تتسابق نماذج اللغات الضخمة متعددة الوسائط (Multimodal Large Language Models) في إحداث تقدمات جديدة في مهام اللغة المرئية. ومع اقتراب المعايير التقليدية للإجابة على الأسئلة البصرية من مرحلة الانتهاء، فإن تطوير نظام موثوق يتطلب تلبية متطلبات صيانة نسبة خطأ منخفضة في السيناريوهات الحقيقية وغير المعروفة.

هنا تأتي تقنية SIEVES (Selective Prediction through Visual Evidence Scoring) لتحسين التنبؤ الانتقائي، مما يعني تحسين نسبة الإجابات التي يقدمها النظام، بينما يلتزم بمستوى مخاطر معين يحدده المستخدم. الهدف هو تعزيز التغطية من خلال تقييم دقيق للأدلة البصرية المقدمة، مما يمكن النظام من إصدار قرارات أكثر دقة وموثوقية.

تقوم SIEVES بتقدير جودة التوطين باستخدام المدخلات والمخرجات فقط، مما يجعلها قادرة على تعزيز التغطية حتى ثلاث مرات على معايير صعبة. وقد أظهرت التجارب أن SIEVES تتفوق في الأداء مقارنة مع التقنيات التقليدية التي لا تأخذ في الاعتبار التوطين البصري.

يمكن لمستخدمي SIEVES الاستفادة من هذه التقنية دون الحاجة للوصول إلى الأوزان أو الإشارات الداخلية للنماذج المغلقة المصدر، مثل o3 وGemini-3-Pro. يعني ذلك إمكانية انتقال الأسلوب إلى نماذج خاصة جديدة من دون الحاجة للاستعداد المسبق، مما يفتح المجال لتطبيقات جديدة ومبتكرة في عالم الذكاء الاصطناعي.

بفضل SIEVES، أصبح من الممكن تحقيق عموميات شاملة عبر جميع المعايير واختيار النماذج المستخدمة، مما يجعلها واحدة من أبرز التطورات في هذا المجال. يمكن للمطورين الوصول إلى الشيفرة البرمجية متاحة للجمهور على [هذا الرابط](https://github.com/hector-gr/SIEVES) لزيادة الابتكار واستكشاف المزيد من الاحتمالات.

ما رأيكم في هذه التقنية الجديدة؟ هل تعتقدون أنها ستحدث فرقًا في التطبيقات العملية؟ شاركونا في التعليقات.