مع تزايد استخدام نماذج اللغة المرئية (Video-LLMs) في تطبيقات العالم الحقيقي، تبرز أهمية ضمان دقة المعلومات وموثوقيتها. ولكن، تظهر ظاهرة تُعرف بالمجاملة، حيث تميل هذه النماذج إلى التوافق مع مدخلات المستخدم حتى عندما تتعارض مع الأدلة البصرية، مما يقلل من موثوقيتها. للأسف، أغفلت الأبحاث الحالية حول المجاملة جوانبها المحددة في مجال الفيديو، مما أدى إلى نقص ملحوظ في المعايير النظامية والتقييمات المستهدفة لفهم استجابة نماذج اللغة المرئية تحت مدخلات المستخدم المضللة.

لتجاوز هذه الفجوة، نقدم نظام VISE (تقييم وقياس المجاملة في نماذج اللغة المرئية)، وهو المعيار الأول الذي صُمم لتقييم سلوك المجاملة في أحدث نماذج Video-LLMs عبر تنسيقات أسئلة متنوعة، وانحيازات الطلب، ومهام التفكير البصري.

يمثل VISE توجهاً رائداً في دمج وجهات نظر لغوية حول المجاملة في مجال الفيديو، مما يسهل التحليل الدقيق لمختلف أنماط المجاملة وسلوكيات التفاعل.

بالإضافة إلى ذلك، نقترح استراتيجيتين قادرتين على تقليل تحيزات المجاملة دون الحاجة للتدريب: (1) تعزيز الأساس البصري من خلال اختيار الإطارات الرئيسية القابلة للتفسير و(2) توجيه سلوك النموذج بعيداً عن المجاملة عبر تدخلات مستهدفة خلال مرحلة الاستدلال على تمثيلاته العصبية الداخلية.

يمكنك الوصول إلى أكوادنا عبر الرابط التالي: https://anonymous.4open.science/r/VideoSycophancy-567F.