في عالم الذكاء الاصطناعي المتطور، تُعتبر نماذج الرؤية-اللغة-العمل (Vision-Language-Action) من بين الأكثر إثارة للجدل. في العادة، يُعتبر أعمق تمثيل من العمود الفقري للرؤية-اللغة المثالي عالميًا لتوقع الأفعال. لكن، تكمن المشكلة عندما يتعلق الأمر بالتلاعب الروبوتي، الذي يتطلب تعديلات مكانية متكررة وبشكل مغلق، مما قد يؤدي إلى إهدار الحسابات وتقويض الإشارات الهندسية الأساسية اللازمة لتحقيق السيطرة الدقيقة.
في ضوء هذه التحديات، تقدم ورقة البحث الجديدة LoopVLA، وهي بنية معمارة تعلّم مستمرة (recurrent architecture) تمزج بين تحسين التمثيل وتوقع الأفعال وتقدير الكفاءة. تقوم LoopVLA بتطبيق وحدة تحويل (Transformer block) مشتركة بشكل تكراري لتحسين الرموز متعددة النماذج، وفي كل دورة، تنتج كلاً من فعل مرشح ودرجة كفاءة تُقدّر ما إذا كان التحسين الإضافي ضرورياً.
ما يُميز LoopVLA هو القدرة على فصل عملية التحسين عن مؤشرات الطبقات المطلقة، متشبثة بتقدير الكفاءة بناءً على التمثيل المتطور نفسه. إذ أنه، نظرًا لأن الكفاءة ليس لديها إشراف مباشر، تم تقديم هدف محاذاة توزيع ذاتي الإشراف، حيث يتم تدريب درجات الثقة المتوسطة لتتناسب مع جودة الأفعال النسبية عبر خطوات التعديل، وبالتالي ربط تعلم الكفاءة بإشارات تحسين السياسات.
تُظهر التجارب في مكتبات LIBERO وLIBERO-Plus وVLA-Arena أن LoopVLA تدفع حدود الكفاءة والأداء في سياسات VLA، مما يقلل من المعلمات بنسبة 45% ويحسن من معدل الاستنتاج حتى 1.7 مرة، مع الحفاظ على أو تحسين الأداء مقارنةً بقاعدة بيانات قوية في إنجاح المهام.
هل تعتقد أن هذه الحلول الجديدة ستحدث ثورة في كيفية عمل الروبوتات؟ شاركونا آرائكم في التعليقات!
LoopVLA: ثورة في نماذج الرؤية-اللغة-العمل لتحسين الكفاءة والدقة!
تطور جديد في عالم الذكاء الاصطناعي يظهر من خلال LoopVLA، حيث يجمع بين تحسين التمثيلات وتقدير الكفاءة في نماذج الرؤية-اللغة-العمل. هذا الابتكار يقلل من تكاليف الحسابات بكفاءة دون الاستغناء عن دقة التحكم.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
