في تطور مثير يشهده مجال الذكاء الاصطناعي، شهدنا تقدمًا ملحوظًا في نماذج الرؤية واللغة (Vision-Language Models) التي تُشغل الوكلاء الرسوم البيانية المحمولة (GUI Agents). هذه النماذج تمنح الوكلاء القدرة على فهم الواجهات الرسومية المرئية واستيعاب التعليمات التي تُعطى لهم.

ومع ذلك، تبقى توقعات نتائج الأفعال من أهم القضايا التي تواجه هذه التقنية، خصوصًا في الحالات ذات المخاطر العالية والمهام ذات الأفق الطويل. فقد شكلت النماذج الحالية للعالم المحمول تحديًا جديدًا، حيث تقدم إما تمثيلات نصية أو تصويرية للمستقبل، ولكن يبقى السؤال: أي من هذه التمثيلات هو الأكثر فائدة؟

لإجابة هذه التساؤلات، تم تصفية وتعليم بيانات نموذج العالم المحمول ثم تدريب نماذج العالم عبر أربع مُنفذَات: نص تفاضلي (Delta Text)، نص كامل (Full Text)، صور أساسها التشتت (Diffusion-based Images)، وكود قابل للرندر. تُظهر هذه النماذج أداءً ممتازًا من الفئة الرائدة على كل من MobileWorldBench وCode2WorldBench.

عند تقييم فائدة هذه النماذج في تطبيقات عملية، توصل الباحثون إلى ثلاث نتائج رئيسية. أولًا، إعادة بناء الكود القابل للرندر (Renderable Code Reconstruction) أظهرت دقة عالية وتوفير إشراف متعدد الوسائط لتحسين بناء البيانات. ثانيًا، قدّمت المسارات التي تنتُجها نماذج العالم تجارب تفاعلية قابلة للنقل خلال عملية التدريب، مما ساهم في تحسين أداء المهام النهائية للوكلاء، رغم أن هذه البيانات لا تحافظ على التوزيع الأصلي. وأخيرًا، بالنسبة للوكلاء المتنقلين المفرطين في الثقة والذين لديهم انحدار عمل منخفض، قدمت فترة الانعكاس الذاتية نتائج محدودة، مما يشير إلى أن نماذج العالم تكون أكثر فاعلية كأداة للإدراك المسبق أو الإشراف على التدريب بدلاً من كونها مدققًا شاملًا بعد الفعل.

إن هذه النتائج لا تُبرز فقط إمكانيات نماذج العالم المحمول، بل تفتح آفاقاً جديدة في كيفية استغلال هذه التكنولوجيا لتحسين أداء الوكلاء وتحقيق نتائج فعالة في المواقف الأكثر تعقيدًا. ما رأيكم في هذا التطور؟ شاركونا في التعليقات.