تعيش تقييمات الذكاء الاصطناعي (AI) في عصر جديد، حيث تتجه نحو مهام أكثر تعقيدًا تتطلب استخدام تقنيات متعددة وحل مشكلات بشكل تدريجي. ولعل ما يميز هذا التحول هو تأثير كميات الحوسبة المتاحة أثناء عمليات التقييم المعروفة باسم "حوسبة الاستدلال" (Inference Compute). في دراسة جديدة، تم اختبار أداء 12 نموذجًا لغويًا متقدمًا (Frontier Language Models) عبر سبعة معايير تحدي شملت مجالات مثل البرمجة وعلوم الرياضيات والطب والأمن السيبراني.
تم استخدام إعدادات موحدة تشمل ثلاثة تدخلات بسيطة لزيادة فعالية الاستدلال: أولًا، زيادة ميزانيات الرموز (Token Budgets)، ثانياً، تقليل سياقات المعلومات (Context Compaction)، وثالثًا، محاولات التقديم المتكررة. وقد أظهرت النتائج الرئيسية ثلاثة جوانب مثيرة للاهتمام:
1. **تحسين الأداء**: زيادة ميزانية الرموز تؤدي إلى تحسين كبير في الأداء عبر متطلبات متعددة، مثل الأمن السيبراني و FrontierMath.
2. **تحديات الميزانية الثابتة**: يمكن أن تقلل التقييمات ذات الميزانية الثابتة من قدرة النماذج المتقدمة، فكلما زادت الميزانيات، زادت القدرة على أداء مهام أصعب.
3. **اختلافات بين المعايير**: تختلف المعايير في فعالية الأساليب التقيمية، مما يستدعي النظر بعناية في الخيارات المتاحة لكل معيار.
تسلط هذه الدراسة الضوء على أهمية مرونة بروتوكولات التقييم ودورها في الحصول على تقييمات دقيقة تُظهر الإمكانيات الحقيقية للنماذج، خاصة في الظروف ذات الأهمية الأمنية أو السياسة. تحتاج التقييمات المستقبلية إلى الإبلاغ عن قدرات النماذج كوظيفة من الحوسبة أثناء الاستدلال، وتوضيح اختيارات البروتوكول بشكل صريح.
كيف تؤثر تقنيات الحوسبة على تقييم نماذج الذكاء الاصطناعي الحديثة؟
تكتسب تقييمات الذكاء الاصطناعي بعدًا جديدًا مع تزايد تعقيد المهام التي تتطلب استخدام أدوات وحل مشاكل بشكل تدريجي. تكشف دراسة جديدة أن أداء النماذج يعتمد بشكل كبير على كمية الموارد المتاحة أثناء الاختبار.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
