في عالم الذكاء الاصطناعي المتطور، غالباً ما تُقيّم نماذج الوكالات بناءً على أدائها في إنهاء المهام، لكن ما هو مدى دقة هذه التقييمات؟ هنا يأتي دور نظام VIGIL، وهو إطار جديد يهدف إلى قياس ما يُعرف بالتزام الوكالة عند الانتهاء من المهام (terminal commitment).

يواجه الباحثون مشكلة كبيرة في تمييز أنواع الفشل المختلفة التي يمكن أن تواجهها هذه الوكالات، مثل: عدم إتمام المهمة، إتمامها ولكن دون التوقف الصحيح، أو الإعلان عن النجاح بدون دليل كافٍ. وهذه الأنواع من الفشل كانت تُجمع جميعها في فئة واحدة تُعتبر فشلاً معيارياً.

يقدّم VIGIL طريقة مبتكرة تُتيح تقييم التزام الوكالة بشكل مستقل. بموجب البروتوكول الافتراضي لـ VIGIL، يُسمح لوكالات الذكاء الاصطناعي بمشاهدة المعلومات المحيطة بها فقط من منظورها الخاص (egocentric RGB)، مما يعني أنها لا تتلقى إشارات النجاح في التنفيذ. بدلاً من ذلك، يجب عليها إنهاء كل حلقة بمذكرة معنوية يتم التحقق منها ضد حالة العالم المخفية.

هذا النظام يُنتج نتيجتين منفصلتين: إتمام حالة العالم (World-state completion) والنجاح المعياري (Benchmark success)، حيث يتطلب النجاح المعياري تقريراً صحيحاً عن الحالة النهائية. من خلال هذا التفكيك، يمكن تحديد أربع فئات نتيجة: الفشل في التنفيذ، الانجراف بعد الإتمام، الالتزام غير المدعوم، والنجاح المعتمد.

خلال التجارب على 20 نموذجاً في 1,000 حلقة، أظهر الباحثون أن الأنظمة التي تحقق نتائج متقاربة في إتمام حالة العالم قد تختلف بـ19.7 نقطة في النجاح المعياري. هذا يشير إلى أن بعض النماذج تستطيع تقديم تقارير صحيحة عن الحالات التي حققتها، في حين أن نماذج أخرى تنحرف عن الهدف دون إغلاقه بشكل صحيح.

لتأكيد هذا الانفصال، أظهرت التدخلات التي تركز على إشارة التنفيذ تحسيناً كبيراً في إتمام حالة العالم، لكن حالات الفشل في الالتزام استمرت في النماذج التي لم تربط تقاريرها النهائية بالحالات المحققة.

يعد VIGIL نقلة نوعية في كيفية تقييم الوكالات، حيث يوفر بروتوكولاً واضحًا يجعل الالتزام النهائي مرئيًا وقابلًا للتقييم بدقة. فهل ستكون هذه الطريقة الجديدة هي الخطوة المقبلة نحو تحسين أداء الوكالات الذكية؟