تتقدم تقنيات الذكاء الاصطناعي بوتيرة مذهلة، ومن بين الابتكارات الجديدة، يبرز نموذج VER (Vision Expert Transformer) كخطوة متقدمة في مجال تعليم الروبوتات. يعتمد هذا النموذج على مفهوم التعلم من خلال الاستفادة من نماذج بصرية مسبقة التدريب (Pretrained Vision Foundation Models - VFMs) التي تُعزز من تمثيل المعرفة البصرية.

رغم قوة هذه النماذج في مهام معينة، إلا أن محدودية استخدامها في مجالات متنوعة كانت تعيق تقدم الروبوتات وتميزها. لذا، تم طرح فكرة دمج عدة نماذج بصرية في تمثيل موحد لحل هذه المشكلة. لكن التحدي يكمن في الحاجة إلى إعادة تدريب مكلف للنموذج بشكل كامل، مما يجعله غير مرن.

يقوم نموذج VER بتثمين هذه التحديات من خلال تطوير مكتبة خبراء بصرية، حيث يتم استخراج المعرفة من عدة نماذج بصرية، ومن ثم يتم تحسين شبكة توجيه خفيفة الوزن (تحت 0.4% من المعلمات) لاختيار الخبراء المعنيين بالمهام المحددة من المكتبة المُعدة مسبقًا.

واحدة من التقنيات الجديدة التي تم تقديمها هي "توجيه الخبراء المتPatchwise" مع تحسين منهجية "Curriculum Top-K Annealing"، مما يعزز من مرونة ودقة اختيار الخبراء الديناميكي. كما يدعم النموذج تحسين المعلمات بكفاءة، مما يتيح الاستخدام الواسع للخبراء ودمج المعرفة في مجالات الروبوتات بشكلٍ أفضل.

حققت VER أداءً رائدًا في 17 مهمة روبوتية متنوعة، متفوقةً بذلك على الكثير من الأساليب التقليدية. كما أظهرت الكفاءة في تركيز المعالجة على المناطق الحرجة للمهام، مما أدى إلى تقليص الانحرافات الكبيرة في المناطق غير ذات الصلة.

يمكن الاطلاع على المزيد من تفاصيل النموذج، بما في ذلك التصورات والكود البرمجي، من خلال زيارة الموقع: https://yixiaowang7.github.io/ver_page/.