عالم الذكاء الاصطناعي يشهد تطورات متسارعة، خاصة في مجالات الرؤية واللغة والحركة (Vision-Language-Action) التي باتت تعتمد على مجموعة محدودة من الأنماط المعمارية مثل النماذج الذاتية المعتمدة على الرموز (discrete-token autoregression) والنماذج المعتمدة على تدفق الإجراءات المستمرة (continuous-action flow-matching). في قلب هذا البحث الجديد، يأتي نموذج CrossVLA، الذي يُعد طفرة نوعية في فهم كيفية تحسين نماذج VLA بعد التدريب، وكان لهذا النموذج ثلاثة مساهمات رئيسية تسلط الضوء على أهميته.

أولاً، تم تطوير مُقدّر للاحتمالات المرتبطة بتدفق الإجراءات، مما يتيح استخدام تحسين التفضيلات المباشر (Direct Preference Optimisation) في نماذج VLA التي تعتمد على التدفق المستمر.

ثانياً، أُجري مقارنة شاملة بين أسلوبي LoRA وDoRA كخيارات فعالة من حيث المعلمات لتطبيق تحسين التفضيلات، حيث أظهرت النتائج أن DoRA قد حققت تحسينات ملحوظة تتجاوز 10.4 نقاط مئوية على نموذج OpenVLA، مع نتائج تحقق دقة تصل إلى 99.5% في استرجاع المهام.

ثالثاً، تم تحليل وقت التنفيذ حيث أظهرت الدراسات أن حلقة إلغاء الضجيج تسيطر على 78.6% من زمن تأخير العينة، مما يؤكد ضرورة تحسين استراتيجيات التخزين المؤقت للبيانات لتحقيق تسريع الأداء. كل هذه الاكتشافات متاحة لعموم الباحثين والمطورين عبر كود المصدر والبيانات التجريبية كما هو موضح على GitHub.

ماذا تعني هذه الابتكارات بالنسبة لمستقبل نماذج الذكاء الاصطناعي؟ هل ستحدث هذه التطورات ثورة في كيفية تفاعلنا مع التكنولوجيا? شاركونا آرائكم!