تعتبر نماذج الروبوتات الحالية أداة قوية تعتمد على فرضية ضمنية تقتضي تجانس الزمن، مما يعني التعامل مع جميع الإجراءات على أنها متساوية في الأهمية خلال عملية التحسين. هذا المفهوم، الذي انتقل من نماذج اللغة، يتجاهل التسلسل الفيزيائي الموجود في عمليات التلاعب، مما يؤدي إلى قيود جوهرية في الأداء.

في الواقع، المسارات التي تسلكها الروبوتات متنوعة بشكل جذري؛ حيث تلعب الأجزاء البطيئة منها دورًا حاسمًا في نجاح المهام، حيث تطلب تفاعلات دقيقة، بينما تمثل الحركات السريعة انتقالات لا تحتاج إلى دقة مفرطة. هذا التباين بين وزن الخسارة الموحد والاحتياجات الفيزيائية يؤثر سلبًا على نماذج الرؤية-اللغة-الإجراء (Vision-Language-Action Models) ونماذج العالم-الإجراء (World-Action Models) في المهام المعقدة.

لهذا السبب، تم تقديم AttenA+، وهو إطار عمل مستقل عن الهيكلية يركز على الأجزاء الحرجة حركيًا من خلال انتباه الإجراءات المدفوع بالسرعة. من خلال إعادة وزن الهدف التدريبي استنادًا إلى مجال السرعة المعكوس، يتماشى AttenA+ بشكل طبيعي مع متطلبات العمليات الفيزيائية. كما يمكن دمجه بسهولة في النماذج الموجودة دون حاجة لتعديلات هيكلية أو معلمات إضافية.

تظهر التجارب الواسعة أن AttenA+ يرفع بشكل ملحوظ من أداء النماذج الحالية الرائدة، محققًا تحسينًا بنسبة 1.5% لنموذج OpenVLA-OFT ليصل إلى 98.6% على معيار Libero، ورفع FastWAM بنسبة 0.6% ليصل إلى 92.4% على منصة RoboTwin 2.0. كما أكدت التجارب الواقعية على مُعالج Franka صلابة AttenA+ وقدرته على التعميم عبر المهام المختلفة.

باختصار، يفتح عملنا آفاقًا جديدة في تحسين التحكم في الروبوتات من خلال التفكير في البنى الهيكلية الداخلية لتسلسلات الإجراءات، مما يجسد توازنًا نادرًا بين العلوم الفيزيائية وتقنيات التعلم الآلي.