في عالم الذكاء الاصطناعي، تعتبر التعلم المعزز (Reinforcement Learning) من الأساليب الواعدة في تحسين أداء وكلاء واجهات المستخدم (GUI Agents) في بيئات رقمية معقدة. ومع ذلك، يواجه هذا النوع من التعلم تحدي قلة الدخلات الموثوقة التي تُعزز النجاح على مستوى المراحل، مما يجعل من الصعب توجيه أداء النظام خلال خطوات الاستكشاف الوسيطة.

للتحايل على هذه المشكلة، قدمت دراسات حديثة نماذج المكافآت العملية (Process Reward Models - PRMs) التي تسعى لتقديم تغذية راجعة أكثر تفصيلًا من خلال التحقق من الإنجازات على مستوى شامل أو تقييمات على مستوى الخطوات الفردية. ولكن، لا تزال هذه الطرق تعاني من بعض القيود؛ مثل الافتقار إلى الدقة في تقسيم الإنجازات العالمية، مما يؤدي إلى تجربتي تنفيذ متعددي المسارات غير الفعالة.

استلهمًا من آليات تتبع العلامات في تحليل تدفق الشبكات، تم تقديم نموذج StainFlow، وهو نموذج مكافأة معزز لوكلاء GUI قائم على تتبع تدفق العلامات. يسعى StainFlow إلى تقليل الاعتماد علىpartitioning العالمية من خلال تقديم وحدة تتبع العلامات العالمية التي تركز على الكيانات المهمة المعترف بها بصريًا، وتفحص كيف تتغير تركيزات وولايات الكيانات على طول المسار. هذا يتيح فصل مراحل المهمة بشكل موضوعي استنادًا إلى تدفق الأدلة.

لتحقيق دقة أفضل في التحقق المحلي، تم إدخال وحدة ربط الأدلة المحلية. تتمركز حول الكيانات المثيرة للاهتمام في كل عقدة رئيسية، تسترد خطوات مناسبة استنادًا إلى تركيزاتها وتغيراتها، مما يمكن من إنشاء نوافذ أدلة ذات كثافة عالية للتحقق من العقد الأساسية الحقيقية.

أظهرت التجارب على منصتي AndroidWorld و OGRBench أن StainFlow تمكن من تحسين نسبة نجاح التعلم المعزز عبر الإنترنت بنسبة 3.2% ودقة حكم الإنجاز بنسبة 1.8%.

إن النموذج الجديد يعد بتغيير قواعد اللعبة في كيفية تقييم الأداء وتوجيه التعلم، فهل سيكون StainFlow هو المستقبل الذي ننشده لوكلاء الذكاء الاصطناعي؟