تشهد تقنيات الذكاء الاصطناعي تطورًا مستمرًا، حيث أصبحت نماذج اللغات الكبيرة (Large Language Models) تُستخدم بشكل مُتزايد في الأنظمة العاملة بشكل آلي. ومن بين المهام الأساسية التي تواجه هذه الأنظمة، نجد ضرورة ربط نوايا المستخدمين بالأدوات الخارجية المناسبة. لكن، ماذا يحدث عندما تتعرض هذه الأنظمة لأخطاء في اختيار الأدوات؟ يمكن أن تؤدي هذه الأخطاء إلى عواقب وخيمة، بما في ذلك الوصول غير المصرح به إلى البيانات.

تُظهر التقييمات الحالية للأداء قيودًا، حيث تعتمد معظمها على معايير مُعدّة مسبقًا، مما لا يُظهر سلوك الأنظمة في بيئة حقيقية. ولتجاوز هذه الفجوة، تم تقديم إطار عمل LLMCert-T، الذي يُعتبر الأول من نوعه في تقديم تقديرات إحصائية موثوقة للاحتمالات المتعلقة باختيار الأدوات. يعتمد LLMCert-T على مشكلة تقدير بيرنولي، ويتعامل مع توزع أدوات مدخلة يمثل الظروف الواقعية.

من خلال إنشاء عملية عشوائية تُولد تسلسلات من الأدوات المُدخلة جولة تلو الأخرى، يضمن LLMCert-T تجميع النتائج بطريقة تُعزز من دقة التنبؤ بالنتائج. كما يُقدم إطار العمل حدودًا موثوقة على ما إذا كانت المعايير المعتمدة قد تم تحقيقها.

لكن النتائج التي تم جمعها تظهر أن الوكلاء الحاليين للنماذج اللغوية الكبيرة لا تزال تُظهر هشاشة تحت ظروف معينة مثل اختيار المُشوشات (Distractor Selection) واختيارات الأعلى (Top-N Saturation). حيث تتراجع حدود الصحة المُعتمدة عليهم إلى 20% فقط، مما يُشير إلى فجوة كبيرة مقارنةً بالحدود الدنيا المأخوذة من تجمعات الأدوات النظيفة.

إطار LLMCert-T يُعتبر خطوة رائدة نحو تعزيز سلامة الأنظمة الذكية، مما يُفتح أمامنا آفاقًا جديدة لفهم التحديات المرتبطة باختيار الأدوات والضمانات المتعلقة بأمان البيانات.