نحو جيل موثوق من المعلومات المعززة عبر الاسترجاع: التنبؤ بثقة الحقائق

في ظل التطورات الهائلة في مجال الذكاء الاصطناعي، يُعد إدخال المعرفة المحددة إلى نماذج اللغة الكبيرة (Large Language Models) من خلال استخدام تقنيات مثل جيل المعلومات المعزز بالاسترجاع (Retrieval-Augmented Generation - RAG) من الأساليب الشائعة التي تغذي العديد من تطبيقات الذكاء الاصطناعي في الصناعة اليوم. ولكن، يبقى التحدي الأساسي هو تقييم ما إذا كانت السياقات التي تُسترجع عبر بحث التشابه توفر حقائق داعمة فعلاً، أم أنها تضلل الجيل بمعلومات غير ذات صلة.

في هذا السياق، يُعتبر من الضروري الربط بين مقاييس الثقة المتعلقة بصدقية عمليات الاسترجاع والإجابات الناتجة عنها. نقدم في هذا البحث نهجاً جديداً ذا مرحلتين للتنبؤ بموثوقية الحقائق للإجابات الناتجة عن عمليات الاسترجاع.

المرحلة الأولى تتضمن استخدام التنبؤ المنظم (Conformal Prediction) لاختيار المقاطع المسترجعة التي لديها فرصة عالية تكون من المصدر الصحيح، مما يمكن أن يعزز جودة الإجابة بمعدل يصل إلى 6% في بعض مجموعات البيانات المدروسة. إلا أن الضمانات الإحصائية المرتبطة بهذا الأسلوب قد لا تكون سارية بشكل عام، حيث يعتمد فرض التبادلية في العينات على إعداد الاسترجاع. نقدم مقاييس تشخيصية لتقييم ما إذا كان الإعداد مناسباً.

أما المرحلة الثانية، فتتعلق بحساب الثقة في تناسق الإجابة النهائية المتولدة مع السياق المسترجع، باستخدام مصنف قائمة الحقائق المعتمد على الانتباه. هذا الأسلوب يمكنه اكتشاف الإجابات غير المتسقة بمعدل يصل إلى 77%.

يقدم عملنا إطاراً جديداً لنظم RAG المعتمدة من قبل السلطات لتطبيقات معالجة اللغة الطبيعية في مجموعة واسعة من الصناعات.

ما رأيكم في هذا التطور؟ شاركونا في التعليقات.

نحو جيل موثوق من المعلومات المعززة عبر الاسترجاع: التنبؤ بثقة الحقائق

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

دفاعات إلكترونية مبتكرة: نموذج CyberSecQwen-4B وجعل الأمن الإلكتروني محليًا!

ثورة جديدة في نماذج اللغة الصغيرة: تحسين توليد Bash باعتماد تقنيات القواعد

إطلاق نموذج EMO: ثورة في التدريب المختلط للخبراء من أجل التحول المعياري!