أصبحت نماذج الرؤية واللغة والعمل (Vision-Language-Action - VLA) تمثل في الآونة الأخيرة نموذجًا واعدًا للسيطرة العامة على الروبوتات. مع التركيز المتزايد على مفهوم الاختبار أثناء التنفيذ (Test-Time Scaling - TTS)، أُجريت العديد من الدراسات لتعزيز قدرة النظام على العمل بكفاءة أكبر في مواقف تنطوي على التحديات.
ومع ذلك، تكمن مشكلة الأساليب الحالية في TTS أنها تحتاج إلى تدريب إضافي وتحقق مستقل، بالإضافة إلى استخدام عدة تمريرات أمامية، مما يجعلها غير عملية عند التطبيق في الحياة الحقيقية. والنتيجة هي أنها تتدخل فقط أثناء مرحلة فك الشفرة، بينما تبقى التمثيلات البصرية ثابتة، مما يؤدي إلى أثر محدود في ظل الغموض الإدراكي.
لمعالجة هذه القيود، تم تقديم SCALE، وهي استراتيجية استدلال بسيطة تسمح بتعديل كل من الإدراك البصري والعمليات التنفيذية بناءً على "عدم اليقين الذاتي". مستلهمة من نظرية الاستدلال النشط، لا تتطلب SCALE تدريبًا إضافيًا أو تحققًا، كما تحتاج فقط إلى تمريرة أمامية واحدة.
تعمل SCALE على توسيع استكشاف الإدراك والعمل في ظل ظروف عدم اليقين العالية، مع التركيز على الاستغلال في الأوقات التي تكون فيها الثقة عالية. تؤكد التجارب التي أُجريت على النماذج المحاكاة والبيئات الواقعية أن SCALE تحسن من أداء VLAs الرائدة، متفوقة على الأساليب الحالية في TTS، بينما تقدم كفاءة تمرير فردي.
إن تطبيق SCALE يحثنا على إعادة التفكير في كيفية تفاعل الروبوتات مع بيئاتها، مما يمهد الطريق لمزيد من الابتكارات في هذا المجال المثير.
ثورة في التحكم الروبوتي: SCALE يغير قواعد اللعبة في نماذج الرؤية واللغة والعمل
تمثل SCALE نهجًا مبتكرًا لتحسين نماذج الرؤية واللغة والعمل (VLA) من خلال إدارة الإدراك الحسي والعمليات التنفيذية بشكل مشترك. هذا ما يميزها عن الطرق التقليدية، مما يزيد من فعالية الروبوتات في بيئات غير قابلة للتنبؤ.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
