في عالم الذكاء الاصطناعي، تمثل نماذج التفكير الكبير (Large Reasoning Models) إحدى التطورات الرائدة، إذ تُظهر قدرات عامة مذهلة. لكن، تواجه هذه النماذج تحديات كبيرة في مهام التفكير المكاني. يتعامل العديد من الباحثين مع هذه الفجوة كعجز معرفي، ويعتمدون على عملية التعديل الدقيق تحت الإشراف (Supervised Fine-Tuning) لتغذية النماذج ببيانات مكانية مصنّفة من مصادر بصرية خارجية.
ومع ذلك، يجادل الباحثون، في هذا العمل، أن معظم القدرات الضرورية للتفكير المكاني موجودة بالفعل في هذه النماذج المدربة مسبقاً، لكن تحتاج إلى تنظيم من خلال الاتساق المنطقي وفقاً لقيود هندسية في الأبعاد الثنائية والثلاثية.
تقديم إطار عمل يعتمد على التعلم المعزز الذاتي (Self-Supervised Reinforcement Learning) يعد بديلاً مثيرًا، حيث يستهدف عملية التفكير الداخلية دون الحاجة إلى تعليقات مرجعية دقيقة. من خلال توضيح مفهوم المدققين للاتساق - وهي دوال مكافأة تتحقق من الاتساق الهندسي والدلالي تحت أشكال التحويل - يظهر البحث كيف يمكن للنماذج تعزيز قدراتها في التفكير المكاني.
تتضمن التقنيات المستخدمة تحولات بصرية، مثل قلب الصور، وتحولات نصية، مثل تبديل ترتيب الأشياء في السؤال. كما يقترح الباحثون استراتيجية تعلم معزز جديدة تسمى OT-GRPO، وهي نسخة معدلة تركز على المدققين الثنائيين. وقد أظهر البحث أن هذه الطريقة الحديثة التي لا تعتمد على التسميات تتحسن دقتها لتقترب من دقة النماذج المدربة بواسطة إشراف دقيق، وتحقيق تعميم مماثل عبر مهام ومجالات بيانات متنوعة.
من الواضح أن تطوير استراتيجيات جديدة في تكنولوجيا الذكاء الاصطناعي مثل هذه سيكون لها تأثير عميق على كيفية معالجة المعلومات، مما يفتح آفاقاً جديدة في العديد من التطبيقات.
فن الاستجواب: كيف تعزز الثبات الحقائق في التفكير المكاني
تتناول الدراسة الحالية الفجوة في قدرات نماذج التفكير المكاني وتعالجها بمقاربة جديدة تعتمد على التعلم الذاتي. من خلال استخدام التعزيز الذاتي، يمكن تحسين قدرات النماذج في القضايا الهندسية دون الحاجة إلى بيانات مرجعية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
