تسير التطورات في عالم الذكاء الاصطناعي بخطى متسارعة، وخاصة في مجال الوكلاء المتنقلين المعتمدين على نماذج اللغة والرؤية (Vision-Language Models). ولعل أبرز هذه التطورات هو "Mobile-R1"، الذي يعد ثورة حقيقية في كيفية تدريب الوكلاء المتنقلين على فهم التعليمات المعقدة والتفاعل مع واجهات المستخدم الرسومية.

على الرغم من أن الأساليب الحالية تعتمد على التدريب غير المتصل (Offline Training) أو المكافآت على مستوى الأفعال المحلية، إلا أنها غالبًا ما تضع الوكلاء في أوضاع محلية ثابتة، مما يعيق استكشاف البيئة وتصحيح الأخطاء. ولكن، مع "Mobile-R1"، تم تقديم منهج تدريبي منهجي يربط بين تنفيذ الأفعال الأساسية والانتهاء الاستراتيجي للمهام.

هذا المنهج يتكون من ثلاثة مراحل رئيسية: 1. توافق الصيغة لترتيب الهيكل المنطقي، 2. استكشاف ديناميكي مع تغذية راجعة قابلة للتحقق لتأسيس الإجراءات الأساسية، 3. تدريب على مستوى المهام متعددة الجولات ضمن بيئة واقعية لتعزيز الاستكشاف وتصحيح الذات.

هذا النظام الهرمي يتيح للوكيل تجربة "لحظات يوريكا"، حيث يكتشف ويتعلم من أخطائه بشكل فعال. علاوة على ذلك، تم معالجة نقص البيانات المتنوعة في واجهات المستخدم الرسومية باللغة الصينية من خلال تقديم مجموعة بيانات شاملة تغطي 28 تطبيقاً مع 24,521 ملاحظة يدوية عالية الجودة.

كما تم إنشاء معيار صارم يتكون من 500 مسار (Trajectory). هناك توقع مفتوح المصدر لكافة الموارد، بما في ذلك مجموعة البيانات، ومعيار التقييم، وأوزان النماذج، والشفرة المصدرية عبر الرابط: [Mobile-R1](https://mobile-r1.github.io/Mobile-R1/).

في عالم يتطور فيه الذكاء الاصطناعي بشكل أسرع من أي وقت مضى، ماذا تعني لك هذه التحسينات؟ شاركونا أفكاركم وتعليقاتكم!