في عالم الذكاء الاصطناعي، يعد التفكير المجسد (Embodied Reasoning) من أبرز الاتجاهات التي تتيح للنماذج فهم البيئة المحيطة بها. ولكن، كانت هناك تحديات كبيرة تواجه النماذج الحالية، مثل نموذج RoboPIN الجديد الذي تم الإعلان عنه مؤخرًا.

تتمثل المشكلة الأساسية في أن النماذج الحالية، مثل نماذج الرؤية واللغة، تعتمد بشكل كبير على النص فقط أو تسلسل الأفكار المعزز بالإحداثيات، مما يؤدي إلى عدم وضوح في الإشارات الكيانية ويُفقد الربط بين التفكير والأدلة البصرية. هذا يعني أنه قد يحدث انفصال بين عملية التفكير والمرئيات، مما يجعل النتيجة النهائية أقل موثوقية، خاصة في السيناريوهات المتعددة الرؤى.

لمعالجة هذه المشكلات، قدّم الباحثون نموذج RoboPIN والذي يعتمد على مفهوم "تسلسل ربط الأفكار المُثبَت" (Pinned Chain-of-Thought) الذي يربط كل خطوة تفكير بدليل بصري. يقوم RoboPIN بربط كل كيان مهم بمرتكز بصري منظم يحتوي على اسم الكيان وهوية فريدة ومؤشر الرؤية والتوجه المكاني، مما يُمكّن من تتبع الكيانات بشكل دقيق عبر مراحل التفكير المختلفة.

نجح الباحثون في إنشاء خط أنابيب بيانات تلقائي بالكامل لبناء مجموعة بيانات عالية الجودة بصيغة RoboPIN، مما ساهم في تدريب النموذج من خلال عملية متدرجة تتضمن إدخال المعرفة المجسدة، القدرة على التفكير المنظم، ومحاذاة تحت إشراف العملية.

وفي نتائج مدهشة، أظهر RoboPIN أداءً متفوقًا في 14 معيارًا تغطي التفكير المكاني المجسد، والتفكير عبر المشاهد المتعددة، مما أدى إلى تحسين مطرد بنسبة 12% مقارنة بالنماذج المفتوحة الأخرى.

يثبت هذا البحث فعالية الإشراف على العمليات ويعد بفتح آفاق جديدة للذكاء الاصطناعي في التعامل مع التحديات المعقدة التي تتطلب تفاعلًا عميقًا مع البيئة.