في عالم الذكاء الاصطناعي، تتصاعد التحديات مع تطور التكنولوجيا. وفي هذا السياق، أُطلق مؤخرًا أدوات قياس جديدة لأداء Agents استخدام الحواسيب (Computer-use agents) على نظام macOS. تقدم MacArena، وكما هو مذكور في ورقة بحثية نشرها فريق من الباحثين، أداة تقييم عالمية تتضمن 421 مهمة تم التحقق منها يدويًا من 50 تطبيقًا، مما يكشف عن عمق المشكلات الفريدة التي يوفرها نظام macOS.

تستند MacArena إلى بيئة افتراضية تعمل باستخدام إطار التهيئة الخاص بشركة Apple (Apple's Virtualization framework) الذي يعزز الأداء على الأجهزة التي تعتمد على معمارية Apple Silicon. بينما كانت النسخة السابقة المعروفة باسم macOSWorld محدودة في نطاقها وتغطي تطبيقات أولية فقط، فإن MacArena تقدم مجموعة واسعة من المهام والتحديات الجديدة.

والأهم من ذلك، تشير النتائج إلى أن Agents قد يحققون أداءً قويًا في بيئات مثل Linux ولكن يمكن أن يواجهوا عقبات أكبر في نظام macOS، حيث تتغير التقييمات بشكل ملحوظ بين المهام التي تم تصديرها إلى macOS وتلك المحلية. إذ يُظهر أحد النماذج ذات الطراز العالي تراجعًا بنسبة تزيد عن 26٪ ضمن فئة MacArena، مما يشير إلى أن التجربة على نظام macOS تتطلب مهارات مختلفة تمامًا.

هذا التطور يمثل خطوة مهمة في مجال تقييم أداء الذكاء الاصطناعي عبر أنظمة التشغيل المتنوعة، ويشجع المطورين والباحثين على التركيز على التحديات الفردية التي يقدمها macOS. هل تعتقد أن هذه الأداة ستحدث ثورة في طريقة تعاملنا مع الذكاء الاصطناعي على أجهزة Apple؟ شاركونا آراءكم في التعليقات!