في ظل التطورات السريعة للذكاء الاصطناعي المجسد، كانت لنماذج الرؤية-اللغة-الفعل (Vision-Language-Action) فرصة كبيرة للتميّز في إدراك الأنماط المتعددة وتنفيذ المهام بشكل فعال. على الرغم من ذلك، تواجه عملية تطبيق تعلم التعزيز (Reinforcement Learning) على هذه النماذج الضخمة في البيئات الموزعة الكبرى بعض العوائق الأساسية التي تعيق أدائها، خاصة عندما يتعلق الأمر بالصراع على الموارد بين محاكاة الفيزياء عالية الدقة ومتطلبات الذاكرة التشغيلية والعرض الترددي العاليتين في التعلم العميق. وتؤدي هذه الصراعات إلى قيود كبيرة في الإنتاجية نتيجة عدم كفاءة مرحلة التنفيذ.
للتغلب على هذه التحديات، قدم الباحثون D-VLA، وهو إطار عمل موزع لتعلم التعزيز يتيح التفاعل العالي والكمون المنخفض, مصمم خصيصاً للنماذج التأسيسية الضخمة. يعتمد D-VLA على مفهوم "فصل الطائرات" (Plane Decoupling)، الذي يعزل بيانات التدريب عالية التردد عن التحكم في الأوزان منخفض التردد، مما يقضي على التداخل بين المحاكاة والتعزيز.
كما يتضمن D-VLA تصميمًا مبتكرًا لخط أنابيب غير متزامن مؤلف من أربعة خيوط، مما يحقق تداخلًا كاملًا في التجميع والاستدلال وحساب التدرجات وتوزيع المعلمات. ولحل المشاكل المرتبطة بتجزئة الذاكرة، اعتمدنا نموذج إدارة VRAM مزدوج البركة مع النسخ الواعى للطوبولوجيا، مما يحسن كفاءة الاتصال.
أظهرت التجارب على معايير مثل LIBERO أن D-VLA يتفوق بشكل كبير على الإطارات السائدة لتعلم التعزيز من حيث الإنتاجية وكفاءة التجميع لنماذج VLA المكونة من مليارات المعلمات. وفي اختبارات القابلية للتوسع لمليارات المعلمات، حافظ إطار العمل على استقرار استثنائي وتسارع خطي، مما يوفر نظاماً قوياً لوكلاء مجسدين عاليي الأداء.
إن D-VLA هو خطوة كبيرة نحو تحسين أداء النماذج الضخمة في عالم الذكاء الاصطناعي، فهل أنتم مستعدون لاستكشاف المزيد عن هذا التطور التقني المذهل؟ شاركونا آرائكم في التعليقات!
D-VLA: ثورة جديدة في تعلم التعزيز للذكاء الاصطناعي تجسد الفواصل الزمنية بين الرؤية واللغة والفعل!
تقدم D-VLA إطار عمل موزع لتعلم التعزيز يعالج التحديات المتمثلة في نماذج الرؤية-اللغة-الفعل. بفضل تصميمه الفريد، يحسن هذا الإطار الكفاءة ويزيد من أداء النماذج الضخمة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
