في عالم الذكاء الاصطناعي (AI)، تزداد الحاجة إلى نماذج اللغة متعددة الوسائط (Multimodal Large Language Models - MLLMs) التي تعتمد على مزيج من الأنماط، مثل الفيديو والصوت والنص، لتوفير استنتاجات متكاملة وموثوقة. هذه النماذج تُستخدم بشكل متزايد في المهام التي تتطلب تفكيرًا عميقًا وإنتاج نصوص طويلة، حيث يكون تحديد موثوقية المعلومات أمرًا بالغ الأهمية.

لقد أظهرت الأبحاث الجديدة في هذا المجال أن النماذج الحالية تُقيَّم بناءً على سيناريوهات مبسطة أو استخدام محدود للوسائط، مما يمنع من قياس نسبة الاستنتاج في سياقات أكثر تعقيدًا. وهنا يأتي دور نموذج MuRGAt، الذي يُعتبر مرجعًا جديدًا لتقييم نسبة الحقائق في بيئات تحتاج إلى تفكير متقدم يتجاوز الملاحظة المباشرة.

يستند نموذج MuRGAt إلى الحاجة لتوليد إجابات مع استدلال واضح واستشهادات دقيقة، حيث تتطلب كل استشهاد توضيح الوسيط والفترة الزمنية المرتبطة به. بالإضافة إلى ذلك، قدم الباحثون إطار تقييم تلقائي يتوافق بشكل قوي مع أحكام البشر، مما يسهل عملية تقييم دقة النماذج.

وبالرغم من تقديم تحليلات عميقة، تبين أن العديد من النماذج القوية لا تزال تُظهر تصورات غير صحيحة حتى عندما تكون لديها تفكير صحيح. من المثير أن هناك موازنة مهمة تُظهر أنه كلما زادت عمق الاستنتاج أو تم فرض بنية محددة، كان ذلك يؤثر سلبًا على الدقة، مما يُبرز فجوة كبيرة بين التفكير الداخلي والنسبة القابلة للتحقق.

بالتالي، يُعد نموذج MuRGAt خطوة كبيرة تجاه تحسين موثوقية الذكاء الاصطناعي، مما يساعد على سد الفجوات التي تعاني منها النماذج القائمة حاليًا ومنح ثقة أكبر لمستخدمي تقنيات الذكاء الاصطناعي.