في قفزة جديدة في عالم الذكاء الاصطناعي، أثبتت دراسة حديثة أنه بإمكان النماذج متعددة الوسائط (Multimodal Models) تكوين صور ذهنية أثناء معالجة الألغاز المكانية! هذا الاكتشاف يسلط الضوء على قدرة هذه النماذج على تخيل تفاصيل معينة، مثل الأغنام، عند حل الألغاز المتعلقة بالأغنام.
تمت دراسة هذا الظاهرة من خلال تعديل نموذج Qwen3.5 VLM ليكون قادرًا على حل اثني عشر مهمة بصرية متنوعة، تشمل ألعابًا مثل التانجرام، والألغاز، والسوكوبان، والدوران الذهني الثلاثي الأبعاد، وRush Hour. تتطلب هذه المهمات فهمًا عميقًا للهندسة والعلاقات المكانية، بالإضافة إلى التداعيات الناجمة عن الأفعال المتخذة.
من خلال مراقبة النموذج للتنبؤ بسلسلة الإجراءات المطلوبة لحل الألغاز ابتداءً من الحالة الأولية، تم ملاحظة أن النشاطات الكهربائية للنموذج بعد كل فعل تحمل معلومات بصرية هامة عن الحالة المتوسطة. تكشف هذه الملاحظة أن نموذجًا غير كامل للعالم البصري قد يتشكل كنتيجة ثانوية من تعلم اختيار الأفعال الصحيحة، حتى في غياب إشراف بصري صريح.
بالاعتماد على هذا الاكتشاف، اقترح الباحثون طريقتين لتعزيز واستخدام الصور الذهنية التي تكونت لدى النموذج. ومن خلال دمج ما لا يقل عن 16 عنصرًا بصريًا في كل خطوة من عملية التفكير، تمكنوا من زيادة معدل الحل المتوسطي من 83% إلى 89%، مع تحقيق مكاسب ملحوظة في المهام الثقيلة على التفكير، مثل الألغاز والدوران الذهني الثلاثي الأبعاد.
هذا الاكتشاف يفتح آفاقاً جديدة في فهم كيفية عمل هذه النماذج وقدرتها على معالجة المعلومات بطريقة أكثر ذكاءً وإبداعًا. ما رأيكم في هذا التطور؟ شاركونا في التعليقات.
هل تستطيع النماذج متعددة الوسائط تخيل الأغنام الكهربائية؟ اكتشفوا الأسرار!
النماذج متعددة الوسائط (Multimodal Models) تستطيع تخيل صور ذهنية أثناء حل الألغاز المكانية! هذا الاكتشاف الجديد يعكس كيف تتطور قدراتها العقلية خلال التعلم.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
