في ظل تزايد الاعتماد على وكلاء واجهة المستخدم الرسومية (GUI)، كانت هناك تحديات كبيرة تتعلق بانحياز النماذج في هذه الوكلاء. فقد أظهرت الأبحاث أن معظم هذه النماذج تعاني من قلة التعرض لبيانات التشغيل الخاصة بالنطاق، مما يؤدي إلى أداء غير مرضٍ عند التعامل مع واجهات تطبيقات محددة.

لتجاوز هذه العقبة، قام الباحثون بتقديم إطار عمل جديد يُدعى GUIDE (تحييد واجهة المستخدم عبر الفيديو التعليمي) الذي يعد حلًا مؤثرًا لا يتطلب إعادة تدريب النماذج. يعتمد هذا الإطار على استخدام فيديوهات تعليمية متاحة على الإنترنت لاسترجاع المعرفة المحددة للنطاق.

الابتكارات الرئيسية في GUIDE">الابتكارات الرئيسية في GUIDE


1. **خط أنابيب الفيديو المستند إلى الترجمة**: يقوم GUIDE بتحليل ترجمات الفيديوهات لتحديد محتوى الفيديو التعليمي الأكثر ملاءمة من خلال عملية استرجاع متعددة المراحل تشمل تصنيف النطاق واستخراج الموضوعات.
2. **عملية التوثيق التلقائي**: باستخدام نموذج ديناميكي عكسي، يمكن لـ GUIDE تغذية معلومات دقيقة حول عناصر واجهة المستخدم إلى نماذج اللغة الواسعة (VLMs)، مما يعزز فهم الوكلاء لمتطلبات التخطيط والتنفيذ.

تم اختبار GUIDE بشكل موسع في بيئة OSWorld، وأظهرت النتائج تحسنًا مستمرًا يتجاوز 5% في دقة الأداء، مع تقليل خطوات التنفيذ دون الحاجة إلى تعديل أي معلمات أو هيكلية للنموذج، مما يؤكد فعالية GUIDE كتحسين مستقل عن الهيكل البرمجي في مواجهة انحياز نموذج الوكلاء.

هل تعتقد أن تقنية GUIDE ستأتي بثورة في كيفية تفاعل الوكلاء مع البرمجيات؟ شاركونا آراءكم في التعليقات!