أُطلق العنان لتحدي [جديد](/tag/جديد) في عالم [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي) من خلال [دراسة](/tag/دراسة) رائدة يبحثها الباحثون في [نماذج [الرؤية](/tag/الرؤية) واللغة](/tag/[نماذج](/tag/نماذج)-[الرؤية](/tag/الرؤية)-واللغة) ([Vision-Language Models](/tag/vision-language-models)) وقدرتها على [حل الألغاز](/tag/حل-الألغاز) المعقدة بطريقة مشابهة للبشر. هذه [الدراسة](/tag/الدراسة) تقدم [أداة](/tag/أداة) جديدة تُعرف باسم '[نموذج [الرؤية](/tag/الرؤية) واللغة](/tag/[نموذج](/tag/نموذج)-[الرؤية](/tag/الرؤية)-واللغة) ضد الآلة الرائعة' (VLATIM)، وهي اختبار مصمم خصيصاً لتقييم [مهارات](/tag/مهارات) [التفكير المنطقي](/tag/[التفكير](/tag/التفكير)-المنطقي) والتفاعلي في [اللعبة](/tag/اللعبة) الكلاسيكية 'الآلة الرائعة 2' (The Incredible Machine 2).
على الرغم من أن [نماذج [الرؤية](/tag/الرؤية) واللغة](/tag/[نماذج](/tag/نماذج)-[الرؤية](/tag/الرؤية)-واللغة) قد حققت تقدماً كبيراً في العديد من المجالات، إلا أن التحديات في البيئات التفاعلية تتطلب مزيداً من [البحث](/tag/البحث). يستخدم اختبار VLATIM منهجية جديدة تتجاوز الاختبارات التقليدية التي غالباً ما تتجاهل التعقيد الحقيقي لتخطيط الأدوار الذكية. تأخذ الاختبارات شكل خمس مراحل متقدمة، تقيّم القدرات من أساسيات [فهم](/tag/فهم) [الصورة](/tag/الصورة) إلى المناورات المركبة وحل الألغاز بالكامل.
تشير النتائج إلى وجود فجوة ملحوظة بين [التخطيط](/tag/التخطيط) والتنفيذ. بينما تظهر [النماذج الكبيرة](/tag/[النماذج](/tag/النماذج)-الكبيرة) المُعتمَدة [مهارات](/tag/مهارات) [تخطيط](/tag/تخطيط) متفوقة، إلا أنها تواجه صعوبة في [تحقيق](/tag/تحقيق) [التوافق](/tag/التوافق) البصري الدقيق. بالتالي، لا تزال هذه [النماذج](/tag/النماذج) بعيدة عن إظهار القدرات البشرية الحقيقية في [حل المشكلات](/tag/حل-المشكلات).
إن [دراسة](/tag/دراسة) VLATIM ليست مجرد خطوة فنية، بل هي دعوة لوضع [استراتيجيات جديدة](/tag/[استراتيجيات](/tag/استراتيجيات)-جديدة) تدفع حدود ما يمكن لأساليب [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي) تحقيقه. فمع ارتفاع تعقيد الطلبات التفاعلية، يصبح من الضروري [تطوير](/tag/تطوير) [نماذج](/tag/نماذج) تقدم المزيد من [التفكير الاستراتيجي](/tag/[التفكير](/tag/التفكير)-الاستراتيجي) والتفاعل البصري الصحيح.
هل تتمتع نماذج الرؤية واللغة بقدرات حل المشكلات مثل البشر في ألعاب الألغاز التفاعلية؟
تقدم دراسة جديدة نموذجاً لتقييم القدرات المنطقية لنماذج الرؤية واللغة في ألعاب الألغاز التفاعلية، مظهرةً الفجوة بين التخطيط والتنفيذ. الكشف عن تحديات جديدة لتعزيز تفاعل الذكاء الاصطناعي مع البيئات الأكثر تعقيداً.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
