في عصر التكنولوجيا الحديثة، تعتمد وكالات نماذج اللغات الضخمة (Large Language Models) بشكل متزايد على الأدلة البيئية، مثل الملفات، صفحات الويب، واجهات برمجة التطبيقات (APIs)، والسجلات. إلا أن هذه الأدلة، على الرغم من تأثيرها الكبير على استخدام الأدوات، تتسم غالبًا بعدم اليقين من موثوقيتها وسلطتها.

إذن، ما هي نقاط الضعف الرئيسية في الاعتماد على هذه الأدلة البيئية؟ تكشف الأبحاث الأخيرة، التي صدرت في الورقة العلمية المعنونة "ثقة مفرطة: كيف يؤثر تداخل البيئة على الوكالات؟"، عن إطار جديد يسمى EnvTrustBench، والذي يهدف إلى تقييم هذه العيوب في اعتماد الوكلاء على الأدلة.

تم تعريف "عيوب اعتماد الأدلة" (Evidence-Grounding Defects - EGD) على أنها إخفاقات سلوكية حيث يعتبر الوكيل ادعاءً بيئيًا كدليل كافٍ لاتخاذ إجراء، دون التحقق مقابل الأدلة الحالية المتاحة، مما يؤدي إلى مسار خاطئ في المهمة.

يتضمن إطار العمل EnvTrustBench توليد مساحات العمل، وتحديد الأهداف، والتحقق من النتائج، وتنفيذ الوكيل المُقيم. تم تقييم 55 حالة تم إنشاؤها عبر 11 سيناريو مهماتي باستخدام 6 نماذج للغة و5 هياكل معروفة. تكشف النتائج عن ظهور عيوب الاعتماد على الأدلة بشكل مستمر في جميع عمليات العمل، مما يسلط الضوء على أهمية معالجة مشكلات الموثوقية المرتبطة بالاعتماد على البيئة.

هذا البحث يفتح آفاقًا جديدة لفهم كيفية تأثير البيئة على القرارات التي يتخذها الذكاء الاصطناعي، مما يعكس التحديات الأمنية التي قد تنشأ عن ذلك. كيف يمكن تعزيز موثوقية وكالات الذكاء الاصطناعي في ظل هذه التحديات؟