في عالم الذكاء الاصطناعي، تُعتبر نماذج اللغات الضخمة (Large Language Models) أداةً فعّالة، لكن دراسة حديثة تعكس جانبًا جديدًا من التحديات المتعلقة بمدى توافق النتائج. تشير الدراسة إلى أن وكالات نماذج لغوية متعددة المكونات تقوم بتجميع ادعاءات احتمالية من مكونات تُحلل فقط جزءًا من المشكلة الشاملة، مما قد يؤدي إلى انتهاك بديهيات أساسية في الاحتمالات حتى عندما تكون كل مكونات المشكلة محلية متوافقة.

تعرض الدراسة مفهوم "البقايا التركيبية" (compositional residual eps*)، وهو المسافة (L2) من الاقتباس المركب إلى منطقة الاحتمالية المتماسكة الشاملة "polytope"، والتي يمكن حسابها في الوقت الحقيقي استنادًا إلى مخرجات النظام والقيود المعلنة للتزاوج بين المكونات.

تُميز الدراسة بين نوعين من الهياكل، حيث يُظهر تحليل موجه باستخدام جزء من كيفية تحقيق التوافق المحلي، بالإضافة إلى تنبؤات باستخدام "Rayleigh quotient" التي تتطابق بشكل مثير للاهتمام مع البقايا الملاحظة.

عبر اختبار 1,876 مجموعة من الوكالات ضمن أربع مستويات مختلفة من النماذج اللغوية، وُجد أن البقايا كانت أكبر من 0 في نسبة تتراوح بين 33-94% من المجموعات. وهذا يُترجم إلى 0.115 نات لكل رهان من الندم، مما يسجل زيادة خطيرة في عدم دقة النتائج.

ومع ذلك، لم تخلُ الدراسة من الحلول. جرب الباحثون ثلاث استراتيجيات محتملة للتخفيف تتضمن الاسترجاع، والإلهام القائم على التقسيم، واستخدام واحدة من نماذج اللغة كجامع للمعلومات. لكن لسوء الحظ، كل هذه الحلول إما فشلت أو تراجعت في فعاليتها.

باختصار، هذه الدراسة تلقي الضوء على واحدة من التحديات الرئيسية التي تواجه نماذج الذكاء الاصطناعي في سعيها لتحقيق نتائج دقيقة وموثوقة. في عالم يتطور بسرعة، من المهم فهم كيفية تشكيل المعلومات بشكل صحيح.