في عالم الذكاء الاصطناعي الذي يشهد تزايداً مستمراً، برزت أنظمة التوليد المدعوم بالاسترجاع (Retrieval-Augmented Generation - RAG) كأحد النماذج الرائدة في تطوير نماذج اللغات الكبيرة (Large Language Models - LLMs). ومع ذلك، لا تزال مسألة موثوقية هذه الأنظمة بحاجة إلى مزيد من البحث والدراسة.

تعمل أنظمة RAG على تعزيز موثوقية نماذج اللغات الكبيرة من خلال اعتمادها على معرفة خارجية محدثة، مما يقلل من حالات "الهلاوس" أو الردود غير الصحيحة. لكن، لا تزال التحديات قائمة، حيث إن اعتماد هذه الأنظمة على استرجاع بيانات غير موثوقة أو استخدام معرفة بطريقة غير صحيحة يمكن أن يؤدي إلى مخرجات غير مرضية.

للإجابة على هذه التحديات، نقدم إطار عمل موحد يُسمى "Trust-RAG Compass"، الذي يسعى لتقييم موثوقية أنظمة RAG عبر ستة أبعاد رئيسية: الدقة (factuality)، القوة (robustness)، العدالة (fairness)، الشفافية (transparencyالمساءلة (accountability)، والخصوصية (privacy). من خلال هذا الإطار، نقدم مراجعة شاملة للمصادر الأدبية ذات الصلة.

علاوة على ذلك، قدمنا معيار تقييم يُعرف باسم "TRC Bench"، الذي يتعلق بالأبعاد الستة المذكورة، حيث أجرينا تقييمات شاملة لمجموعة متنوعة من النماذج، سواء كانت خاصة أو مفتوحة المصدر. تكشف نتائجنا الفجوات في الأداء بين أنواع مختلفة من نماذج اللغات الكبيرة عبر أبعاد الثقة المختلفة.

في الختام، ننظر إلى التحديات الأساسية والاتجاهات الواعدة للبحث المستقبلي بناءً على النتائج التي توصلنا إليها. من خلال هذا العمل، نهدف إلى وضع أساس منظم لمزيد من التحقيقات وإرشادات عملية لتطوير أنظمة RAG موثوقة في السيناريوهات الحقيقية.