في عالم الذكاء الاصطناعي، حيث تتزايد استخدامات الوكالات متعددة الأنماط (Multimodal Agents)، برزت أصوات جديدة تتحدث عن أهمية التعامل مع الهلاوس البصرية - تلك الظواهر الغريبة التي تجعل الأنظمة تتصرف بطريقة غير دقيقة. هذه الوكالات، التي تعتمد على لقطات الشاشة والمستندات وصفحات الويب، تعرضت لفشل في التفويض عندما يدفع ادعاء بصري غير صحيح النظام إلى تنفيذ أوامر غير مسموح بها.
يعتبر مفهوم 'تحويل الهلاوس إلى عمل' هو المحور الرئيسي هنا. حيث يكون الادعاء غير المدعوم شرطًا مسبقًا يجعل من الممكن تنفيذ إجراءات متميزة بدون إذن، مما يؤدي إلى عواقب وخيمة. وللتصدي لذلك، تم اقتراح نموذج 'الوكايات المتعددة الأنماط الحاملة للأدلة' (Evidence-Carrying Multimodal Agents - ECA)، الذي يضع حدًا للادعاءات غير المدعومة من خلال تقييم موثوقية المعلومات.
تقوم وكالة ECA بتجزئة كل طلب أداة إلى مكونات حاسمة، وتحصيل شهادات نوعية من التحقق المقيد. وهذا يسمح بوابة حاسوبية قابلة للتحديد بإعطاء الامتيازات فقط عندما تدعمها الشهادات.
لا تخفي هذه المعمارية أخطاء الإدراك، بل تقوم بتحويل الاعتقاد الغامض إلى معلومات واضحة يمكن التحقق منها. من خلال اختبارات تتضمن أكثر من 1,900 هجوم، تكشف الخطوات الأربعة المستهدفة لتقوية النظام انخفاض نسبة تجاوز البوابات من 15% إلى 1.3%.
من خلال الحصول على شهادات مستمدة من المحتوى، تسجل ECA معدل تنفيذ غير آمن يبلغ 0% على خط أنابيب مكون من 200 مهمة، مما يدعمه إطار عمل معين.
هذا يطرح مبدأ بسيط: لغات النماذج يمكن أن تقترح إجراءات، ولكن يجب أن تكون الأدلة الخارجية هي الجهة التي تمنح الإذن لتنفيذها. مع دخول هذه التطورات الجديدة حيز التنفيذ، يبدو أننا نشهد تحولاً مثيرًا في كيفية تعامل الأنظمة مع مشكلة الهلاوس البصرية.
هل تصدق ما تراه؟ وكالة متعددة الأنماط تبتكر أساليب جديدة للتصدي للهلاوس!
تبتكر الوكالات متعددة الأنماط أساليب متطورة لتفادي الأخطاء الناتجة عن الهلاوس البصرية. من خلال دمج الأدلة الموثوقة، تحل هذه التكنولوجيا مشاكل أخطاء التنفيذ بشكل مبتكر وفعّال.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
