في عالم الذكاء الاصطناعي، تعتبر القدرة على تحديد واجهات المستخدم (GUI) أمراً بالغ الأهمية لتمكين وكلاء الواجهات من تنفيذ مهام مثل النقر والسحب. ومع ذلك، فإن العديد من النماذج الموجودة تعاني من أداء غير مثالي في السيناريوهات المعقدة، كما هو الحال في معيار ScreenSpot-Pro. في دراسة جديدة، تم تقديم تقنية جديدة تدعى BAMI (Bias-Aware Manipulation Inference) والتي تهدف إلى تقليل نسبة التحيز بطريقة مبتكرة دون الحاجة إلى تدريب مسبق.
تكمن المشكلة الرئيسية في أن دقة الصورة العالية تؤدي إلى تحيز دقة، بينما تساهم عناصر الواجهة المعقدة في توليد تحيز الغموض. وقد اعتمد الباحثون على طريقة إسناد تُعرف بـ Masked Prediction Distribution (MPD) لتحديد المصادر الأساسية للأخطاء التي تؤثر على الأداء.
تعمل BAMI من خلال إدخال تعديلين رئيسيين: التركيز التدريجي من الخشن إلى الدقيق واختيار المرشحين. هذه التعديلات تساعد على تقليل كل من تحيز الدقة والغموض، مما يعزز بشكل كبير دقة نماذج تحديد واجهات المستخدم في بيئات خالية من التدريب. على سبيل المثال، تطبيق BAMI على نموذج TianXi-Action-7B أدى إلى زيادة دقته على معيار ScreenSpot-Pro من 51.9% إلى 57.8%.
وقد أكدت الدراسات التفصيلية قوة طريقة BAMI عبر تكوينات متنوعة للمعلمات، مما يبرز استقرارها وفعاليتها. كما أن الشيفرة المصدرية متاحة للجميع عبر [GitHub](https://github.com/Neur-IO/BAMI).
إذا كنت مهتماً بتطبيقات الذكاء الاصطناعي الحديثة وكيف يمكن للتقنيات الجديدة مثل BAMI تغيير القواعد، شاركنا رأيك في التعليقات!
BAMI: طريقة مبتكرة لتقليل التحيز في تحديد واجهات المستخدم بدون تدريب!
تمكن تقنية BAMI الجديدة من تعزيز دقة نماذج تحديد واجهات المستخدم بشكل ملحوظ دون الحاجة إلى تدريب مسبق. اعرف كيف يمكن للتلاعب الذكي أن يحل مشكلات الأداء في البيئات المعقدة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
