في عالم الذكاء الاصطناعي، تعتبر نماذج رؤية-لغة-عمل (Vision-Language-Action) أحدث الابتكارات في مجال التحكم باستخدام الروبوتات. ولكن رغم نجاح هذه النماذج في محاولة التلاعب الروبوتي، إلا أنه لا يزال هناك تحدٍ كبير متعلق بفجوة الشكل، وخاصة عند التكيف مع الأيدي المُعقدة ذات درجات حرية مرتفعة (high-DoF).

تعاني معظم الأنظمة القائمة من مشكلات تتعلق بالتكيف الفوري، مما يؤدي إلى نسيان كارثي للمنطق المكاني وتدهور مساحات العمل بسبب قلة البيانات المتاحة. وبهذا الصدد، جاءت الدراسة الجديدة التي قدمت إطار عمل مبتكر تحت اسم InDex، والذي يهدف إلى تذليل هذه العقبات بشكل فعّال.

يتمثل الابتكار الرئيسي في استغلال البيانات بطريقة أكثر كفاءة. بدلاً من التخلي عن البيانات المُدربة سابقًا، يقوم النموذج الجديد بإعادة استخدامها كوسيط لنية الإمساك، مما يمكّن من تسلسل قمم التحكم بطريقة جديدة.

يتكون النموذج من بنية تعليمية منفصلة على مرحلتين: المرحلة الأولى تركز على تحسين النموذج التأسيسي (backbone) لكل من التوقع الملائم لمسارات الذراع المستمرة ونية الإمساك المرقمة. وفي المرحلة الثانية، يتم تثبيت هذا النموذج المكاني، بينما يتم استخدام رأس إزالة الضوضاء المشروط بالنية لفك تشفير الحركات الدقيقة للمفاصل في اليد متعددة الأصابع.

أظهرت اختبارات المحاكاة الشاملة على مجموعة من المهام المعقدة الغنية بالاتصال، أن InDex يتقن المهارات المعقدة بكفاءة، متفوقًا بشكل ملحوظ على الطُرق التقليدية، مع الحفاظ على القدرة العالية على تعميم التصورات المكانية الأصلية. ما رأيكم في هذا التطور؟ شاركونا في التعليقات.