أحدثت نماذج الرؤية واللغة والعمل (Vision-Language-Action Models) نقلة نوعية في عالم القيادة الذاتية، من خلال دمج الأنظمة الإدراكية في نموذج موحد ونهاية. ومع ذلك، يواجه العديد من هذه النماذج تحديات كبيرة، منها جمع كميات ضخمة من البيانات ومتطلبات الشروح المعقدة. هنا يأتي دور نموذج NoRD (بدون تفكير للقيادة) الذي يسعى لحل كلا التحديين بشكل فعال.

بمقارنة مع النماذج الحالية، يتميز نموذج NoRD بتحقيق أداء تنافسي مع استخدام أقل من 60% من البيانات المتاحة وبدون الحاجة إلى شروحات عقلانية. هذا الأمر أدى إلى تقليل عدد الرموز المستخدمة ثلاثة أضعاف، مما يجعل عملية التجريب والتطوير أكثر كفاءة.

أحد الجوانب المثيرة للاهتمام في هذا النموذج هو تحديد كيف أن طرق تحسين السياسات التقليدية مثل Group Relative Policy Optimization (GRPO) لم تُظهر تحسنًا كبيرًا عند تطبيقها على بيانات صغيرة خالية من التفكير. وُجد أن هذه المشاكل ناتجة عن انحياز صعوبة تعاقبت عليه العواقب السلبية نتيجة تنوع المكافآت الممنوحة من سيناريوهات معينة.

لحل هذه المعضلة، استخدم نموذج NoRD خوارزمية Dr. GRPO، وهي تقنية جديدة تهدف إلى تقليل انحياز الصعوبة في النماذج اللغوية الكبيرة (Large Language Models). وبفضل هذه الخوارزمية، استطاع NoRD أن يحقق أداءً ممتازًا على كل من نظامي Waymo وNAVSIM، مع نسبة ضئيلة من بيانات التدريب ودون الحاجة للتفكير المعقد، مما يفتح الأبواب أمام نظم مستقلة أكثر كفاءة.

إن التطورات التي يقدمها نموذج NoRD تمثل حجر الزاوية لمستقبل القيادة الذاتية، حيث يجمع بين الابتكار والأداء العالي في وقت واحد. هل تتوقعون أن تشمل هذه التطورات مجالات أخرى مماثلة؟ شاركونا بآرائكم في التعليقات.