في عصر يتسم بالتطور التكنولوجي السريع، باتت الحاجة إلى [وكالات ذكاء اصطناعي](/tag/[وكالات](/tag/وكالات)-ذكاء-اصطناعي) تتمتع بكفاءة عالية في [تصفح](/tag/تصفح) [واجهات](/tag/واجهات) المواقع الإلكترونية أمراً ملحاً. في هذا السياق، تم [تطوير](/tag/تطوير) [WARC-Bench](/tag/warc-bench) (Web Archive Benchmark)، وهو [معيار جديد](/tag/معيار-[جديد](/tag/جديد)) مصمم خصيصاً لتقييم [أداء](/tag/أداء) [وكالات الذكاء الاصطناعي](/tag/[وكالات](/tag/وكالات)-الذكاء-الاصطناعي) في [تنفيذ المهام](/tag/[تنفيذ](/tag/تنفيذ)-المهام) الفرعية المعقدة.
يتضمن [WARC-Bench](/tag/warc-bench) 438 مهمة مختلفة تهدف جميعها إلى اختبار القدرة على [تنفيذ](/tag/تنفيذ) [تفاعلات](/tag/تفاعلات) قصيرة الأجل مع عناصر [واجهة مستخدم](/tag/[واجهة](/tag/واجهة)-مستخدم) متعددة. فمثلاً، يمكن للنموذج أن يُختبر في اختيارات مثل اختيار التاريخ الصحيح من قائمة منسدلة أو تمرير شاشة للحصول على [معلومات](/tag/معلومات) إضافية. تسمح هذه المهام بإجراء [تفاعلات](/tag/تفاعلات) محمولة على صفحات ويب [ديناميكية](/tag/ديناميكية) وواقعية، والتي يتم استرجاعها من ملفات أرشيف الويب (Web ARChive).
أظهرت الدراسات أن [WARC-Bench](/tag/warc-bench) يمثل تحدياً حقيقياً للنماذج الرائدة في حقل الذكاء الاصطناعي، حيث بلغت أعلى نسبة [نجاح](/tag/نجاح) 64.8%. لتحسين [النماذج](/tag/النماذج) مفتوحة المصدر، تم [استكشاف](/tag/استكشاف) تقنيتين شائعتين في [التدريب](/tag/التدريب): [التحسين](/tag/التحسين) تحت إشراف (Supervised Fine-Tuning) والتعلم المعزز مع [مكافآت](/tag/مكافآت) قابلة للتحقق ([Reinforcement Learning](/tag/reinforcement-learning) with Verifiable Rewards).
وقد أظهرت [التجارب](/tag/التجارب) أن [نماذج](/tag/نماذج) [التحسين](/tag/التحسين) تحت إشراف حققت معدل [نجاح](/tag/نجاح) قدره 48.8%، لكن من خلال [التدريب](/tag/التدريب) باستخدام [التعلم](/tag/التعلم) المعزز، ارتفع هذا المعدل إلى 52.8%. هذه الأرقام تثبت أن إتقان المهام الفرعية يعد مهارة أساسية من أجل [التخطيط](/tag/التخطيط) والملاحة الفعالة على الويب، وهي قدرة لم تحظَ بالتقييم الكافي من [معايير](/tag/معايير) الاختبار السابقة.
إذا كنت مطوراً أو باحثاً في مجال الذكاء الاصطناعي، فإن [WARC-Bench](/tag/warc-bench) يمثل فرصة رائعة لتعزيز فهمك للذكاء الاصطناعي وقدراته على التعامل مع [تحديات](/tag/تحديات) [تصفح الويب](/tag/[تصفح](/tag/تصفح)-الويب) المعقدة.
ما رأيكم في هذا التطور الجديد في معيار [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي)؟ شاركونا آرائكم في [التعليقات](/tag/التعليقات)!
WARC-Bench: ثورة في تقييم أداء وكالات الذكاء الاصطناعي على الويب!
تم إطلاق WARC-Bench، هو معيار مبتكر لتقييم وكالات الذكاء الاصطناعي عبر المهام الفرعية على الويب. يضم 438 مهمة تهدف لتحسين القدرات الملازمة للتصفح الذكي على صفحات الويب الديناميكية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
