في عالم الذكاء الاصطناعي، أصبح استخدام الوكلاء الذكيين المعتمدين على نماذج لغوية متعددة الوسائط (MLLMs) شائعاً لإنجاز المهام الرقمية المعقدة. غير أن التحديات التي تواجه هذه الوكلاء في بيئات العمل الحقيقية لا يمكن تجاهلها.
مع وجود نوافذ منبثقة، وتغييرات في دقة الشاشة، وتطبيقات متنافسة تتداخل بشكل مستمر مع قدرة الوكيل على التحكم والتفاعل، تُصبح القضايا المتعلقة بالمرونة والأداء أكثر وضوحاً.
لتقييم هذا الجانب، تم تقديم منصة AgentHijack، وهي benchmark مصممة خصيصًا لاختبار مرونة الوكلاء الذكيين في مواجهة التحديات الشائعة. يتضمن هذا النظام تسعة أنواع من التحديات القابلة للتعديل، تهدف جميعها إلى محاكاة سيناريوهات واقعية حيث تؤثر العوامل الديناميكية على عملية التنفيذ بدون نية عدائية مباشرة.
من خلال تقييم مجموعة متنوعة من المهام المكتبية باستخدام هؤلاء الوكلاء المعتمدين على نماذج MLLM، أثبتت التجارب أن حتى التداخلات البسيطة يمكن أن تؤدي إلى تدهور كبير في الأداء. وهذا يشير إلى هشاشة هذه الأنظمة ويؤكد على أهمية تقييم المرونة.
بعد ذلك، تم تقديم إطار عمل جديد يدعى AgentHijack-Agent، والذي يجمع بين مولد للأفعال وقدرات تحسين مدعومة بنظم متطورة لتلخيص السلوك ومراقبة البيئة المحيطة. نتائج التجارب الكثيفة تثبت فعالية هذا الإطار.
لمن يرغب في استكشاف المزيد، هناك شيفرات برمجية، وبيئة، ونماذج أساسية متاحة للجمهور [رابط_المقال].
AgentHijack: اختبار مدى قوة الوكلاء الذكيين في مواجهة تحديات بيئات الاستخدام اليومية
تقدم منصة AgentHijack benchmark جديد لتقييم مرونة الوكلاء الذكيين المجهزين بنماذج لغوية متعددة الوسائط. هذا البحث يكشف كيف يمكن للبيئات غير المثالية أن تؤثر بشكل كبير على أداء هذه الوكلاء.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
