في عصر تطور الذكاء الاصطناعي، أصبحت نماذج اللغات الكبيرة (Large Vision-Language Models, LVLMs) تلعب دورًا محوريًا في تحسين قدرات وكلاء واجهة المستخدم الرسومية (GUI). هذه النماذج تمكن الوكلاء من فهم التعليمات النصية، وتفسير محتوى الشاشة، وتنفيذ المهام المختلفة بكفاءة عالية. ولكن، يظل هناك تحدٍ كبير يتمثل في عواقب العمليات التي ينفذها الوكلاء؛ إذ يمكن لخطأ بسيط واحد أن يؤدي إلى انحرافات كارثية.
إليك نظام GAIA، الذي يمثل اختصارًا لـ "Data Flywheel System for GUI Action Critic". هذا النظام التدريبي يتيح للنماذج تطوير قدرات نقدية تكرارية، مما يشكل نقطة فارقة في تحسين أداء الوكلاء الأساسيين عند التنفيذ. يقوم النظام بتدريب نموذج النقد الحدسي (Intuitive Critic Model, ICM) باستخدام أمثلة من الإجراءات الإيجابية والسلبية لوكيل أساسي.
يتولى النقد تقييم مدى صحة الأفعال المقصودة، مما يساهم في اختيار العمليات ذات الاحتمالية الأعلى للنجاح. بعد ذلك، يساعد الناقد الأول في توجيه أفعال الوكيل لجمع عينات محسنة من الإجراءات، مما يبدأ دورة للتحسين الذاتي. البيانات المعززة تُستخدم بعد ذلك لتدريب ناشط ثانٍ مع قدرة تمييز محسنة.
لقد أجرينا تجارب على مجموعات بيانات متنوعة وأثبتنا أن نموذج ICM المقترح يمكنه تحسين أداء وقت الاختبار لعدة نماذج، سواء كانت مغلقة أو مفتوحة المصدر. والأهم من ذلك، أن الأداء يمكن تحسينه تدريجيًا مع إعادة تدوير البيانات.
للحصول على الشيفرة المصدرية، ومجموعة البيانات، وصفحة المعلومات المرفقة، يُمكنك زيارة github. هل تعتقد أن نظم النقد الذاتي يمكن أن تُحدث فرقًا في تطبيقات الذكاء الاصطناعي؟ شاركونا آراءكم في التعليقات!
GAIA: نظام مطور لتدريب نماذج النقد في واجهات استخدام الرسوميات
عالم الذكاء الاصطناعي يشهد تقدمًا ملحوظًا مع نظام GAIA الذي يعزز أداء نماذج واجهة الاستخدام من خلال التحليل النقدي للعمليات. هل يبدو أن هذا النظام يوفر الأمان والكفاءة في تنفيذ المهام؟
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
