في عالم مليء بالعديد من العناصر المخفية، يبقى الاستنتاج حول مواقعها تحدياً كبيراً لنماذج الذكاء الاصطناعي. إذ يمكن للبشر غالباً أن يستنتجوا أماكن الأجسام المخبأة بناءً على السياق والمعرفة المشتركة، لكن هذه القدرات لا تزال تمثل عقبة أمام نماذج الرؤية - اللغة (Vision-Language Models).
لمعالجة هذه الفجوة، تم تقديم مشروع SceneFunRI، وهو معيار جديد يهدف إلى تقييم قدرة الذكاء الاصطناعي في استنتاج مواقع الأغراض غير المرئية. يعتمد المشروع على مجموعة بيانات SceneFun3D، ويُعبر عن المهمة كمسألة استدلال مكاني ثنائي الأبعاد من خلال نظام شبه آلي، حيث يتضمن 855 حالة.
يجب على النماذج استنتاج أماكن الأغراض الوظيفية المخفية بناءً على التعليمات الواردة ومعرفة العوامل المشتركة. وفي التجارب، أظهرت أقوى نموذج أساسي (Gemini 3 Flash) أداءً يُظهر CAcc@75 بنسبة 15.20، وmIoU بقيمة 0.74، وDist بقيمة 28.65.
تعكس تحليلاتنا الخاصة بالتحفيز ثلاثة فئات رئيسية: التحفيز القوي للتعليمات، التحفيز القائم على الاستدلال، وعملية الإقصاء المكاني (SPoE). تشير هذه النتائج إلى أن الاستدلال في المناطق المخفية لا يزال قدرة غير مستقرّة في النماذج الحالية، مما يُشجّع على المزيد من الأبحاث لتطوير نماذج تتكامل بشكل أفضل بين نية المهمة والمعرفة المشتركة وأساسيات الفضاء والبحث الواعي بالشك.
في ضوء هذه التطورات الرائعة، ما رأيكم في تأثير هذه البحوث على مستقبل الذكاء الاصطناعي؟ شاركونا في التعليقات.
مشروع SceneFunRI: كيف يمكن للذكاء الاصطناعي استنتاج مكان الأشياء المخفية؟
يقدم مشروع SceneFunRI معياراً جديداً لتقييم قدرة نماذج الذكاء الاصطناعي على تحديد مواقع الأغراض المخفية، استناداً إلى المعرفة المشتركة والسياق. بينما يبقى هذا التحدي قائمة أمام نماذج الرؤية - اللغة، فإن الجهود مستمرة لتحسين الأداء وتحقيق نتائج أفضل.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
