تطرح دراسة جديدة تساؤلات مهمة حول قدرة نماذج اللغات الضخمة (Large Language Models) على بناء نماذج عالمية داخلية استنادًا فقط إلى أوصاف نصية. وذلك من خلال مشروع بحثي مثير يدعى MentalMap، الذي يقوم بتقديم معيار تشخيصي متعدد اللغات يسلط الضوء على تفكير النماذج واستنتاجاتها حول الفضاء.
يتضمن معيار MentalMap ست طبقات للقدرات (L0-L5) تبدأ من الحقائق المكانية البسيطة وصولًا إلى بناء الرسوم البيانية العالمية، ويغطي أربع محاور تشخيصية تشمل إطار الإسناد، وتحريف اتجاه القراءة، وتخصيص جهد التفكير، والهلوسة.
يتكون هذا النظام من 100 مشهد منزلي مأخوذ من ProcTHOR، ويشمل ثمانية لغات متنوعة، بالإضافة إلى نصوص منظمة كمجموعة تحكم، مع 39 عائلة من المهام تمتد عبر 1,950 خلية تقييم.
أظهر تقييم ثلاثة عشر نموذجًا مختلفًا أن هناك فجوة قوية في الأداء عند الطبقة L3، حيث لا يحتفظ أي نموذج حتى بنصف أداء الطبقة L0 في مهام التفكير المكاني عندما يتجاوز دقة الحقائق الأساسية 40%. كما أن هذه الفجوة تبقى ثابتة عبر اللغات والنماذج واستراتيجيات الاستخدام.
تظهر التقييمات البشرية وفقًا لنموذج النص النقي نفس نمط الفشل، مما يشير إلى أن المشكلة تعود إلى القيود المتعلقة بالذاكرة العاملة على النصوص، وليس بسبب هياكل نماذج اللغات الضخمة الحالية. تدعو هذه النتائج غير المسبوقة إلى إعادة صياغة التفكير المكاني الخالص كنظام متعدد المحاور للنمذجة العالمية، مما يحفز البحث في مجالات جديدة مثل التفكير المعزز متعدد الوسائط.
هل تصنع نماذج اللغات الضخمة (LLMs) نماذج عالمية من النصوص؟ دراسة متعددة اللغات لتحليل التفكير المكاني
يكشف بحث جديد بعنوان MentalMap عن كيفية بناء نماذج اللغات الضخمة لمفاهيم الفضاء من النصوص، ويبرز تباين الأداء عبر اللغات. هذه الدارسة تقدم إطاراً جديداً لفهم التفكير المكاني في الذكاء الاصطناعي.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
