في عالم التكنولوجيا الحديثة، يُعتبر تقديم العروض من أهم المهارات التي يحتاجها المحترفون والطلاب على حد سواء. ومع تزايد الاعتماد على برنامج PowerPoint، فإن التفاعل مع هذا البرنامج أصبح حتمياً. لذلك، تم طرح PPT-Eval، معيار جديد يوفر مجموعة تتكون من 120 مهمة رياضية تتعلق بعمل الوكلاء في PowerPoint، مما يجعله أداة مثالية لاختبار فعالية وكالات الذكاء الاصطناعي.

يتناول PPT-Eval مجالات متعددة، تشمل إنشاء المحتوى وتحرير العروض، ويرتب المهام حسب مستوى الصعوبة. لكن التحدي الحقيقي يكمن في كيفية تقييم الأداء. فالفرق بين النجاح والفشل في إنجاز مهمات PowerPoint قد يكون معقداً للغاية، وتحتاج إلى معايير دقيقة لقياس الأداء بشكل صحيح.

تم تصميم إطار تقييم قوي يتناول هذه التحديات، حيث يوفر معايير خاصة لكل مهمة في PPT-Eval. المنهج المستخدم يعتمد على تقييم متعدد الجوانب. فبالإضافة إلى النجاح التام، يُمنح تقييم جزئي للخطوات المتكررة، كما تُعاقب التغييرات غير الضرورية والمظهر السئ، مما يقدم ملاحظات طبيعية للغة.

أظهرت النتائج أن الوكلاء الحاليين يواجهون صعوبة في تحقيق النجاح في مهام PowerPoint، حيث تمكن نموذج Claude-4.5-Opus من تحقيق نسبة نجاح تبلغ 45% فقط ومتوسط تقييم جزئي بلغ 57%. يُعتبر هذا المعيار خطوة مهمة نحو تحسين أداء الوكلاء في مهام PowerPoint، ويمكنكم استكشاف المزيد من خلال زيارة الرابط.

ما رأيكم في هذا التطور وكيف ترون مستقبل الوكالات الذكية في عالم العروض التقديمية؟ شاركونا في التعليقات.