كيف تعاني نماذج اللغة والرؤية (VLMs) من ضعف الوعي بالخصوصية في العالم المادي؟

تسجل نماذج اللغة والرؤية (Vision-Language Models - VLMs) حضورًا لافتًا في تطبيقات الذكاء الاصطناعي، خاصة كأجزاء مستقلة في المساعدات المادية. ولكن الجديد هو الدراسة التي أجريت لتقييم الوعي بالخصوصية في هذه الأنظمة عند دخولها البيئات الحياتية. فعلى عكس روبوتات المحادثة الرقمية، تتواجد هذه النماذج في أماكن حساسة مثل المنازل والمستشفيات، حيث تملك القدرة على مراقبة ومعالجة معلومات خاصة.

للأسف، لا تزال المعايير الحالية تقتصر على تمثيلات نصية أحادية، مما يجعلها مجرد أدوات متخيلة لا تعكس التحديات الفعلية التي قد تواجهها هذه النماذج في العالم الواقعي. وهنا يظهر إطار العمل ImmersedPrivacy، الذي يعيد تصور التقييم من خلال محاكاة بيئات فعلية باستخدام محاكي يعتمد على Unity.

هذا الإطار يقيّم مستوى الوعي بالخصوصية من خلال ثلاث مستويات متطورة، تختبر قدرة النموذج على التعرف على العناصر الحساسة في مشاهد مزدحمة، والتكيف مع السياقات الاجتماعية المتغيرة، وحل النزاعات بين الأوامر الواضحة وقيود الخصوصية المستنبطة.

لقد أظهر تقييم 12 نموذجاً متطوراً وجود عجز واضح، حيث أن جميع النماذج كانت تعاني من تدهور ملحوظ في الأداء مع زيادة تعقيد المشاهد. وعندما تتغير السياقات الاجتماعية، لم تتجاوز نسبة دقة الاختيار 65%. وفي الحالات التي شهدت أوامر متضاربة، نموذج gemini-3.1-pro تمكّن من تحقيق توازن بين إنجاز المهام والحفاظ على الخصوصية في 51% فقط من الحالات.

تظهر هذه النتائج أن نموذج VLMs يعاني من ضعف الإدراك ولا يمكنه الاستفادة من معرفته بعوامل الخصوصية لتوجيه سلوكه في البيئات الدقيقة. إذا كنت مهتمًا بمزيد من التفاصيل، يمكنك الاطلاع على الكود والبيانات المتاحة على [نقطة الوصول].

كيف تعاني نماذج اللغة والرؤية (VLMs) من ضعف الوعي بالخصوصية في العالم المادي؟

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

دفاعات إلكترونية مبتكرة: نموذج CyberSecQwen-4B وجعل الأمن الإلكتروني محليًا!

ثورة جديدة في نماذج اللغة الصغيرة: تحسين توليد Bash باعتماد تقنيات القواعد

إطلاق نموذج EMO: ثورة في التدريب المختلط للخبراء من أجل التحول المعياري!