تتزايد أهمية نماذج الرؤية-اللغة (Vision-Language Models) في التطبيقات الحديثة للذكاء الاصطناعي، لاسيما في مجالات الروبوتات والأنظمة المستقلة التي تتطلب درجة عالية من الدقة والأمان. ومع ذلك، تواجه هذه النماذج تحديات كبيرة تتعلق بوجود مدخلات بصرية غير مستقرة أو لا تتماشى مع الواقع.

في هذا السياق، تم تقديم معيار DIQ-H (Degraded Image Quality Leading to Hallucinations)، الذي يعد الأول من نوعه في تقييم أداء نماذج الرؤية-اللغة تحت ظروف بصرية معادية. يسلط معيار DIQ-H الضوء على مشاكل مثل التشوش الحركي، ضوضاء المستشعر، وعوامل ضغط الصور، وكيف تؤثر هذه العوامل على قدرة النماذج على التعرف على البيانات بشكل صحيح في سياقات زمنية متعاقبة.

هذا الابتكار يتجاوز القياسات التقليدية التي تركز على تقييم ثابت، حيث يقيس بشكل أدق الأخطاء المستمرة التي تحدث بسبب قضية عدم التوافق في القيم. ولتعزيز هذا التقييم، تم تطوير إطار العمل المعروف باسم Value-Guided Iterative Refinement (VIR) الذي يمكّن من تحسين الجودة ودقة التقييم عبر الملاحظات الأخلاقية.

يستخدم إطار العمل VIR نماذج رؤية-لغة خفيفة الوزن للكشف عن عدم التوافق القيمي وتحسين الدقة، مما أدى إلى زيادة ملحوظة في الدقة من 72.2% إلى 83.3%، أي بزيادة نسبتها 15.3%.

بفضل معيار DIQ-H وإطار العمل VIR، يمكننا فتح آفاق جديدة في تقييم أمان الذكاء الاصطناعي وفهم نقاط ضعفه في استعادة الأخطاء والتوافق الأخلاقي، مما يساهم في بناء ابتكارات أكثر أماناً.