تواجه الروبوتات تحديات كبيرة عند التعامل مع الأجسام القابلة للتشويه (Deformable Linear Objects - DLOs) مثل الحبال والأسلاك، حيث تعتبر هذه الأجسام من العناصر الشائعة في العديد من التطبيقات المنزلية والصناعية. على الرغم من ذلك، فإن تعقيد تكوينها ووجود عملية التداخل الذاتي يجعل من الصعب التحكم بها.

تقدم الدراسة التي نُشرت على موقع arXiv حلاً محتملاً من خلال تعلم المحاكاة (Imitation Learning) باستخدام بيانات التحكم عن بُعد. ومع ذلك، فإن قابلية توسيع هذا الأسلوب محدودة بسبب الاعتماد الكبير على الجهود البشرية، مما يجعل اختيار مساحة الملاحظة أمراً حاسماً لتعميم النتائج من مجموعات البيانات الصغيرة.

في هذه الدراسة، تم التحقيق فيما إذا كانت مشكلة عدم التعميم في السياسات الرؤية الذاتية (Egocentric Visual Policies) تتعلق بمساحة الملاحظة ذاتها بدلاً من هيكلية السياسة أو حجم البيانات. تمت مقارنة نوعين من السياسات المعتمدة على تقنيات Action Chunking مع Transformers تم تدريبها على نفس بيانات التحكم عن بُعد الثنائية اليد: الأولى تعتمد على الرؤية من كاميرات مثبتة على المعصم، والثانية تستخدم حالة الجسيمات الثلاثية الأبعاد للحبل.

أظهرت النتائج أن السياسة المعتمدة على الحالة تفوّقت على نظيرتها البصرية، حيث تم تسجيل انخفاض بنسبة 30.8% في خطأ L1 عند توقع إجراء القبض والسحب الأولي. هذه النتائج تسلط الضوء على الفجوة بين نقاط الملاحظة البصرية والدولة الفيزيائية، وتشير إلى إمكانية تعلم الروبوتات بشكل أكثر كفاءة في مهام تحريك الأجسام القابلة للتشويه باستخدام عدد محدود من العروض البشرية.

تفتح هذه الدراسة آفاقاً جديدة لتحسين استجابة الروبوتات في التعامل مع المهام المعقدة، مما يمكن أن يحسن بشكل كبير كفاءتها في العمل.