في إطار التطورات المتسارعة في عالم الذكاء الاصطناعي، يظهر RoboGPT-R1 كمبادرة جديدة تهدف إلى تحسين قدرات الروبوتات في التخطيط الذاتي. يعد تحسين قدرات التفكير للروبوتات أمرًا بالغ الأهمية، خاصةً عند تنفيذ تعليمات إنسانية معقدة تتطلب تلاعبًا طويل الأمد.
رغم الإنجازات الكبيرة التي حققتها نماذج اللغات الضخمة (Large Language Models) ونماذج اللغة والصورة (Vision Language Models) اعتمادًا على التعلم بالإشراف (Supervised Fine-Tuning)، إلا أنها لا تزال تواجه تحديات كبيرة عند تنفيذ مهام تلاعب واسعة في بيئات الحياة الواقعية بسبب قيود معينة في الفهم العام والاستدلال.
تتطلب أهداف التخطيط للروبوتات توافقًا بين فهم عام للأداء الفيزيائي ونموذج تعليمي يحقق التوازن في التحكم بالمؤثرات البيئية. لذلك، تُعتبر عملية تحسين RoboGPT-R1 مليئة بالجديد، حيث تقوم على إطار عمل مكون من مرحلتين: في المرحلة الأولى، يتم استقطاب المعرفة الأساسية من خلال تسلسلات الخبراء، تليها مرحلة التعلم المعزز لمعالجة النقاط الضعيفة في الفهم البصري المكاني والاستدلال.
يتميز هذا النموذج بوظيفة مكافأة قائمة على القواعد تأخذ بعين الاعتبار الأداء الفعلي في المدى الطويل وقيود الحركة في البيئة، مما يساهم في تحقيق فهم فيزيائي ومواءمة تسلسلات الفعل بطريقة متسقة عبر مهام الاستدلال متعددة الخطوات. تم تدريب نموذج الاستدلال على Qwen2.5-VL-3B، وقد أظهر أداءً متفوقًا بأكثر من 21.33% مقارنة بالنموذج الأكبر GPT-4o-mini، وتجاوز أيضًا 20.33% في الأداء عند مقارنته بأعمال أخرى مدربة على Qwen2.5-VL-7B في معيار EmbodiedBench.
إن تقدم RoboGPT-R1 يفتح آفاق جديدة لخوارزميات التخطيط لدى الروبوتات وقدرتها على التفاعل بشكل أذكى مع العالم المحيط، فهل سنشهد قريبًا عصر الروبوتات القادرة على التفكير العميق والتفاعل بكفاءة أكبر؟
ثورة جديدة في التخطيط الآلي: RoboGPT-R1 يرفع قدرات الروبوتات للتفاعل مع المهام المعقدة!
تقديم RoboGPT-R1 يمثل طفرة في تحسين عمليات التخطيط الذاتي للروبوتات، حيث يستخدم إطار عمل مكون من مرحلتين يجمع بين التعلم بالإشراف (Supervised Learning) والتعلم المعزز (Reinforcement Learning). هذا الابتكار يرفع من كفاءة الروبوتات في تنفيذ التعليمات البشرية المعقدة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
