في عالم الذكاء الاصطناعي، يواجه وكلاء الكمبيوتر (Computer-Use Agents) تحديات ملحوظة عند محاولة تنفيذ الأهداف المعقدة للمستخدمين. ولعل أحد أبرز هذه التحديات هو التعلم التعزيزي (Reinforcement Learning) في البيئات المكتبية المفتوحة، والتي تفتقر إلى إشارات المكافأة القابلة للتوسع والقابلة للقراءة من قبل الآلة. ففي الكثير من الأحيان، تُعتمد نجاحات المهام على تفسيرات بصرية يصعب تحويلها إلى وظائف مكافأة محددة أو تسميات يدوية كثيفة.
للتغلب على تلك العقبات، تم اقتراح إطار عمل لتعلم التعزيز يقوم باستخدام التقييم الذاتي للرؤية واللغة (Vision-Language Evaluation) كمؤشر إشرافي قابل للتوسع لوكلاء واجهات المستخدم الرسومية (GUI Agents). هذا النهج يعمل عن طريق تقييم نموذج الرؤية واللغة للمهام المُنجَزة استنادًا إلى لقطة نهائية وتعليمات الأصلية، مما يوفر تغذية راجعة خالية من أي خوارزميات أو تسميات شرطية لعملية تحسين السياسات.
لكن، نظرًا لأن التقييم الذاتي قد لا يكون دقيقًا، فقد تم تصميم ملاحظاتهم كنموذج مكافأة ثنائية مشوشة، ويتم اشتقاق مُقدِّر مكافأة مصححة لتقنية تحسين السياسة القريبة (Proximal Policy Optimization). بينت التجارب التي أجريت في بيئات macOSWorld وWindows Agent Arena وOSWorld أن المكافآت المصححة من التقييمات الذاتية تفوق الأداء الأساسي (zero-shot) والمكافآت الخام لتقييم الأداء، حيث زادت معدلات النجاح بمعدل متوسط قدره 12.6 نقطة مئوية على الأداء الأساسي، و5.1 نقطة على تحسين المكافآت الخام.
تشير هذه النتائج إلى أن التقييم الذاتي يمكن أن يكون بمثابة إشارة مكافأة عملية لتحسين التعلم التعزيزي في بيئات واجهة المستخدم الرسومية عندما يتم نموذجته وتصحيحه بشكل صحيح.
ثورة التعلم التعزيزي: كيف يمكن للذكاء الاصطناعي تحسين عملاء الكمبيوتر ذاتياً؟
يستعرض البحث نهجًا مبتكرًا لتسهيل التعلم التعزيزي لوكلاء الكمبيوتر من خلال تقديم إطار تقييم ذاتي يعتمد على الرؤية واللغة. هذا المفهوم يسعى لتحسين معدل النجاح في أداء المهام عبر واجهات المستخدم الرسومية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
