في عالم الذكاء الاصطناعي، تُعتبر نماذج اللغات الكبيرة المدعومة بالاسترجاع (Retrieval-augmented LLMs) من الأدوات الأساسية المستخدمة في مهام تتطلب دقة عالية وسلامة في اتخاذ القرار. ومع ذلك، تكشف الأبحاث الحديثة عن فجوة حرجة بين قدرة هذه النماذج على المراقبة وفعاليتها في التحكم.

توصل فريق من الباحثين إلى أن هذه النماذج، رغم قدرتها على التعرف على المعلومات المتناقضة، إلا أنها تفشل في ترجمة هذا الإدراك إلى توصيات آمنة وموثوقة. بعبارة أخرى، إن القدرة على اكتشاف الصراع المعرفي لا يعني القدرة على حله بشكل آمن.

استندت الدراسة إلى بروتوكولات تقييم متعددة الأدوار عبر أربعة عائلات من النماذج (من 1.5 مليار إلى 32 مليار معلمة) ومن خلال أكثر من 50,000 تقييم على مستوى الأدوار. وأظهرت النتائج أن التقييمات الأحادية تدل على أمان مفرط للنماذج، إذ لا توجد علاقة بين الاعتراف بالتناقض والقدرة على تقديم حلول آمنة. ولتأكيد هذه النتائج، قام الباحثون بإجراء تقييمات مشتركة مع خبراء بشريين، ما عزز استنتاجاتهم.

تسلط هذه النتائج الضوء على أن الفجوة بين ما تدركه النماذج وما تقوم به يحتاج إلى قياس دقيق وإغلاق قبل أن يمكن الاعتماد عليها في البيئات الحساسة. وبحيث يُظهر التحليل العميق لآلية العمل أن المعلومات ذات الصلة بالمخاطر تُعزز الانتباه أثناء عمليات التوليد غير الآمنة، إلا أنها تظل غير كافية لتوجيه السلوك النهائي لهذه النماذج.

قبل أن يمكن الوثوق في أنظمة الاسترجاع المعززة (RAG) في السياقات عالية المخاطر، يجب أن نفهم جيدًا هذه الفجوة ونعمل على تقليصها.