تسجل نماذج اللغة والرؤية (Vision-Language Models - VLMs) حضورًا لافتًا في تطبيقات الذكاء الاصطناعي، خاصة كأجزاء مستقلة في المساعدات المادية. ولكن الجديد هو الدراسة التي أجريت لتقييم الوعي بالخصوصية في هذه الأنظمة عند دخولها البيئات الحياتية. فعلى عكس روبوتات المحادثة الرقمية، تتواجد هذه النماذج في أماكن حساسة مثل المنازل والمستشفيات، حيث تملك القدرة على مراقبة ومعالجة معلومات خاصة.
للأسف، لا تزال المعايير الحالية تقتصر على تمثيلات نصية أحادية، مما يجعلها مجرد أدوات متخيلة لا تعكس التحديات الفعلية التي قد تواجهها هذه النماذج في العالم الواقعي. وهنا يظهر إطار العمل ImmersedPrivacy، الذي يعيد تصور التقييم من خلال محاكاة بيئات فعلية باستخدام محاكي يعتمد على Unity.
هذا الإطار يقيّم مستوى الوعي بالخصوصية من خلال ثلاث مستويات متطورة، تختبر قدرة النموذج على التعرف على العناصر الحساسة في مشاهد مزدحمة، والتكيف مع السياقات الاجتماعية المتغيرة، وحل النزاعات بين الأوامر الواضحة وقيود الخصوصية المستنبطة.
لقد أظهر تقييم 12 نموذجاً متطوراً وجود عجز واضح، حيث أن جميع النماذج كانت تعاني من تدهور ملحوظ في الأداء مع زيادة تعقيد المشاهد. وعندما تتغير السياقات الاجتماعية، لم تتجاوز نسبة دقة الاختيار 65%. وفي الحالات التي شهدت أوامر متضاربة، نموذج gemini-3.1-pro تمكّن من تحقيق توازن بين إنجاز المهام والحفاظ على الخصوصية في 51% فقط من الحالات.
تظهر هذه النتائج أن نموذج VLMs يعاني من ضعف الإدراك ولا يمكنه الاستفادة من معرفته بعوامل الخصوصية لتوجيه سلوكه في البيئات الدقيقة. إذا كنت مهتمًا بمزيد من التفاصيل، يمكنك الاطلاع على الكود والبيانات المتاحة على [نقطة الوصول].
كيف تعاني نماذج اللغة والرؤية (VLMs) من ضعف الوعي بالخصوصية في العالم المادي؟
تتناول دراسة جديدة الافتقار إلى وعي الخصوصية في نماذج اللغة والرؤية عند تعاملها مع البيئات المادية. النتائج تكشف عن مشكلات ملحوظة في كيفية تعامل هذه النماذج مع المعلومات الحساسة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
