تواجه نماذج اللغة والرؤية (Vision-Language Models) تحديات كبيرة فيما يتعلق بالهلاوس الشيئية، وهذا يعد من أبرز المشكلات التي تؤثر على موثوقية هذه الأنظمة. حتى الآن، كانت المعايير المستخدمة تركز على الدقة العامة، ولكنها نادراً ما توضح ما إذا كانت الأخطاء ناتجة عن قيود إدراكية أو عن تأثير السياق النصي. لهذا السبب، تم تقديم معيار DO-Bench، وهو معيار تشخيصي مبتكر مصمم لعزل هذه المصادر المختلفة من الأخطاء باستخدام تدخلات متعددة النماذج.
بدلاً من تقييم النماذج في بيئات غير مقيدة، يستكشف معيار DO-Bench بعدين تكميليين: بعد تجاوز التوقعات النصية، والذي يقوم بتعزيز السياق النصي مع الحفاظ على الأدلة البصرية ثابتة لتحليل مقاومة النماذج للتأثيرات المتراكمة، وبعد الإدراك المحدود، الذي يزيد تدريجياً من قوة الأدلة البصرية من السياقات العامة إلى قصاصات الأجسام المحلية لقياس قوة التأسيس الإدراكي.
هذا التصميم المزدوج يمكّن الباحثين من تحديد أسباب الأخطاء، سواء كانت ناتجة عن كبت السياق القبلي أو العجز الإدراكي أو تفاعلهما. علاوة على ذلك، تم تعريف مقياسين تشخيصيين جديدين، PriorRobust وPerceptionAbility، لتQuantify هذه الأنماط السلوكية بشكل متسق. تكشف التقييمات التي أجريت على نماذج متنوعة مفتوحة ومغلقة المصدر عن اختلافات نظامية في حساسية السياق القبلي وموثوقية الإدراك، مما يبرهن على أن الهلاوس الشيئية تعكس أنماط فشل متنوعة ومعتمدة على الآلية، بعيدة عن مجرد الدقة الإجمالية.
DO-Bench: معيار مبتكر للكشف عن الهلاوس في نماذج اللغة والرؤية!
تقديم معيار DO-Bench يمكن الباحثين من تحديد أسباب الأخطاء في نماذج اللغة والرؤية بدقة أكبر. هذه الخطوة تمثل نقلة نوعية في تحسين دقة هذه النماذج وتمكنها من تجاوز التحديات الراهنة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
