في عالم تكنولوجيا الذكاء الاصطناعي، برزت نماذج وكالات الرؤية واللغة والعمل (Vision-Language-Action - VLA) كأداة قوية لنقل المعرفة السيمانتية من بيانات الإنترنت إلى التحكم الفعلي في الروبوتات. ومع ذلك، كانت هناك بعض القيود الجوهرية في البنى الأساسية الحالية ذات الإطار الواحد، التي تسبب مشاكل مثل نقص النظرة الزمنية الذي يهمل الديناميات التاريخية، والفجوات في التفكير بين التعليمات عالية المستوى والأوامر الحركية ذات المستوى المنخفض، بالإضافة إلى عدم فعالية الاستنتاج بسبب التشفير التلقائي الأحادي.

في هذا السياق، تم تقديم إطار MIRTH، الذي يهدف إلى مواجهة هذه التحديات. يقوم MIRTH بتعزيز العمود الفقري المسبق التدريب لنماذج VLA بثلاث ابتكارات رئيسية:

1. **محاور الذاكرة الزمنية ذات المقياسين**: تعمل على ضغط تطور المشهد على المدى الطويل والاتجاهات الحركية القصيرة المدى إلى تمثيلات مضغوطة.
2. **رموز التفكير الكامنة**: يتم تحسينها عبر هدف المعلومات المتبادلة، مما يخلق مساحة تخطيط سيمانتية تتوافق بين السياق متعدد الأبعاد ومسارات الأفعال.
3. **نظام تشفير الأفعال المتوازية**: يقوم باستبدال التوليد التلقائي بالتنبؤ القائم على المتجهات لزيادة كفاءة التحكم.

أظهرت التقييمات المكثفة على معيار LIBERO للتجارب والمحطة الحقيقية LeRobot أن MIRTH يحقق أداءً متفوقًا ويظهر قدرات استعادة الأخطاء الطارئة. وفي خطوة تزيد من تأثير هذا الابتكار، تم إصدار الأكواد ومجموعات البيانات التي تم جمعها على الرابط [http://github.com/kiva12138/mirth].

مستقبل وكالات الرؤية واللغة والعمل يبدو مشرقاً بفضل MIRTH، فما رأيكم في الإبداعات التي تقدمها هذه التقنية؟ شاركونا في التعليقات.