تُظهِر نماذج الرؤية-اللغة-الإجراء (Vision-Language-Action) (VLA) إمكانيات واعدة في التحكم في الروبوتات العامة، ولكن تظل فترة تأخر الاستنتاج تمثل تحدياً كبيراً. في ظل تنفيذ الإجراءات بشكل غير متزامن، قد تصبح المعلومات المُنتَجة غير دقيقة، مما يؤثر على الأداء الكلي لهذه النماذج.
قدمت الدراسات عددًا من الحلول المبتكرة لمعالجة هذه المشكلة، بما في ذلك:
1. **التحسين أثناء الاستنتاج (Inference-Time Inpainting)** أو (IT-RTC)
2. **محاكاة التأخير أثناء التدريب (Training-Time Delay Simulation)** أو (TT-RTC)
3. **التكيف المستند إلى الحالة المستقبلية (Future-State-Aware Conditioning)** أو (VLASH)
4. **تصحيح المتبقيات الخفيفة (Lightweight Residual Correction)** أو (A2C2)
كل من هذه الأساليب تأخذ نهجاً مختلفاً، وقد تم تقييمها حتى الآن بشكل مستقل، مع أكواد وقواعد بيانات وبيانات مختلفة. في بحثنا، قمنا بتطوير مقارنة منهجية بين هذه الطرق الأربع تحت ظروف مُتحكم فيها، باستخدام مجموعتين موحدتين من الأكواد التي تدمج جميع الطرق مع إصدارات مكتبات ومجموعات بيانات متجانسة.
أظهرنا الأداء على مجموعة كينيتيكس (Kinetix) باستخدام سياسات MLPMixer، وعلى مجموعة LIBERO لاختبار المناورة (Manipulation Benchmark) مع SmolVLA، مع فحص تأخيرات الاستنتاج حتى 20 خطوة تحكم.
أثبتت طريقة A2C2 فعالية كبيرة، حيث تحقق معدل حل يزيد عن 90% حتى عند تأخيرات تصل إلى 8 خطوات. بينما كانت أساليب IT-RTC تنافسية في التأخيرات المنخفضة، إلا أنها انخفضت بشكل حاد تحت التأخيرات الطويلة. من جهة أخرى، تُظهر طريقة TT-RTC ثباتًا ملحوظًا عبر اختيارات d_max، مع تعميم يتجاوز توزيع تأخيرات التدريب لديها.
إن نتائج هذه الدراسة تُعكس أهمية التنسيق بين الأساليب المختلفة لتحقيق تحسينات شاملة في أداء نماذج VLA، مما يسهل التحكم في الروبوتات المستقبلية.
ما رأيكم في هذه التطورات المثيرة في التقنيات الذكية؟ شاركونا في التعليقات.
استكشاف طرق الاستنتاج غير المتزامن لنماذج الرؤية-اللغة-الإجراء: الحلول والتحديات
تتطرق الدراسة إلى كيفية تحسين نماذج الرؤية-اللغة-الإجراء (VLA) للذكاء الاصطناعي من خلال تقنيات الاستنتاج غير المتزامن، مع تقديم مقارنة بين أربع طرق مختلفة. هذه التوجهات تعتبر خطوات هامة نحو تطوير روبوتات متعددة الاستخدامات.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
