في عالم الذكاء الاصطناعي، تتجه الأنظار إلى نماذج الرؤية واللغة والفعل (Vision-Language-Action - VLA)، التي تعد رؤية جديدة في فهم كيفية تفاعل الروبوتات مع البيئة المحيطة بها. ومع ذلك، لا تزال القدرة على المناورة الدقيقة تمثل تحديًا كبيرًا لسياسات VLA، وذلك بسبب التحكم المعقد في الأيدي والأخطاء المتزايدة في التنفيذ.
لجسر الهوة بين توليد الأفعال المعتمد على الرؤية والتنفيذ الفعلي الموثوق، جاء مفهوم التعلم المعزز ما بعد التدريب في العالم الحقيقي ليكون الحل الأمثل. إلا أن الاستكشاف الدقيق يتسبب في مشكلات تتعلق بالتحكم الزمني وكفاءة العينة ومخاطر الأجهزة في البيئات الحقيقية.
استجابةً لهذه التحديات، يُقترح تقنية BORA، وهي إطار عمل للتعلم المعزز غير المتصل (Offline-to-Online Reinforcement Learning) موجّه لنماذج VLA المعقدة في العالم الحقيقي. خلال المرحلة غير المتصلة، يقوم BORA ببناء مصنف يعتمد على كل من رموز إدراك النموذج اللغوي وقطع الأفعال كمدخلات، مما يسمح بتوجيه قيم الأفعال بناءً على التقييمات الحسية فقط.
أثناء المرحلة التالية المتصلة، يتم تجميد قاعدة VLA ويُضاف آلية التكيف المتبقي الذكي (Human-in-the-Loop - HiL) لتصحيح الأخطاء في التنفيذ الفعلي وتكييف النوايا المتعلمة مسبقًا ضمن البيئة الحقيقية. من خلال الاستفادة من المصنف غير المتصل واستخدام مكافآت مدفوعة بالتدخل، تتمكن BORA من تصحيح التباينات في التنفيذ والتكيف مع المتغيرات الفيزيائية للعالم الحقيقي.
تظهر تقييمات شاملة تم إجراؤها عبر خمس مهام معقدة في العالم الحقيقي أن BORA تفوق بشكل كبير تعليم المحاكاة النقي وإطارات التعلم المعزز التقليدية، مما يحقق زيادة بنسبة 33% في معدل النجاح المتوسط وبنسبة تصل إلى 43% في تحسين التعميم للعناصر غير المرئية. باختصار، تمثل BORA خطوة هامة نحو تحسين أداء الروبوتات في التطبيقات العملية.
BORA: الجسر بين التعلم المعزز غير المتصل والتكيف المتبقي عبر الإنترنت لنماذج VLA المعقدة في العالم الحقيقي
تعرف على BORA، الإطار الثوري الذي يجمع بين التعلم غير المتصل والتكيف الذكي لحل مشاكل الروبوتات في المهام الدقيقة. بفضل تقنيته المتقدمة، يحقق BORA تحسينات ملحوظة في أداء النموذج في البيئات الحقيقية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
