تتزايد أهمية تطوير وكلاء واجهات المستخدم الخفيفة القائمة على الذكاء الاصطناعي مما يجعل التفاعل الآلي عبر منصات متعددة أكثر كفاءة. ومع ذلك، يعاني العديد من هذه الوكلاء من قيود في سعة النموذج، مما يعيق تحسين الأداء. فالتدريب التقليدي عن طريق التوجيه الفائق (Supervised Fine-Tuning - SFT) للنماذج صغيرة الحجم غالباً ما يؤدي إلى نتائج عكسية مثل الإفراط في التعلم وفقدان المعرفة.
في محاولة لمعالجة هذه التحديات، يقدم الباحثون في دراسة جديدة نُشرت على موقع arXiv نهجًا جديدًا للتدريب بدون SFT، مما يساهم في تحسين أداء النماذج صغيرة الحجم بشكل كبير.
تتضمن هذه الطريقة دمج تقنيات تكريرية المعرفة العامة (Generalized Knowledge Distillation) في مجال وكلاء واجهات المستخدم، عن طريق استخدام أسلوب يُعرف بالتقطير القوي إلى سياسات المراقبة (Guided On-policy Distillation).
يُسهم هذا الأسلوب في تقليل الأخطاء البصرية التي تصاحب المهام متعددة الحلول، ويعالج التباين الإدراكي الموجود في هذه المهام. إضافة إلى ذلك، تم تقديم إطار عمل متقدم يسمى Multi-solution Dual-level GRPO، والذي يُحسن التنسيق بين التخطيط على مستوى المهام الفرعية والمطابقة على مستوى التنفيذ.
ندرك أن هذا البحث لم يتوقف عند هذا الحد، حيث تم تطوير خط أنابيب آلي لتوليد بيانات يحاكي مسارات المهام واجهات المستخدم مع توضيحات غنية حول الحلول المتعددة.
بفضل التجارب الشاملة، أظهرت هذه الطريقة تحقيقها لأداء استثنائي مقارنة بالنماذج الخفيفة الأخرى، بينما لا تزال تنافس النماذج ذات الحجم الكبير في جميع المعايير المعروفة. وتؤكد الدراسات المصاحبة على أن التقطير المنظم والاستكشاف على مستويين يمكن أن يكسر حدود الأداء للنماذج ذات الحجم الكبير.
إن هذه النتائج تشير إلى إمكانية فتح أفق جديد لوكلاء واجهات المستخدم الخفيفة، مما يوفر إمكانيات مذهلة لتطبيقات الذكاء الاصطناعي العملي.