لقد أصبح توسيع حسابات الاختبار (test-time compute) استراتيجية فعالة لتحسين أداء نماذج اللغات الضخمة (Large Language Models). تعتبر الأطر التقليدية لتوزيع الموارد غير فعالة في كثير من الأحيان، إذ تُوزع حسابات السيرفر بشكل موحد على جميع الاستفسارات دون مراعاة الفروق في صعوبة الأسئلة.

من أجل معالجة هذه المشكلة، قمنا بصياغة تخصيص حسابات الاختبار كمسألة جديدة من مسائل التعلم اللوقائي (bandit learning) واقترحنا خوارزميات تكيفية تقدّر صعوبة الاستفسارات بشكل ديناميكي، مما يتيح توزيع الحسابات وفقًا لذلك.

تتمتع خوارزمياتنا بقدرة فائقة على تخصيص المزيد من الحسابات للاستفسارات الصعبة، مع الحفاظ على دقة تنفيذ الأسئلة السهلة. بل إن خوارزمياتنا تتعلم أيضًا كيفية أعطاء الأولوية للحالات القابلة للحل، مما يقلل من التشغيل الزائد على الاستفسارات غير القابلة للحل.

نحن نثبت نظريًا أن خوارزمياتنا تحقق كفاءة حسابية أفضل مقارنة بالتخصيص الموحد، وقد تحققنا من فعاليتها من خلال اختبارات تنفيذ الرياضيات والتشفير. على سبيل المثال، حققت خوارزمياتنا زيادة في الأداء تصل إلى 11.10% (15.04% نسبي) على مجموعة البيانات MATH-500، و10.82% (14.44% نسبي) على مجموعة البيانات AIME25، و11.23% (15.29% نسبي) على مجموعة البيانات LiveCodeBench.

هذا التطور يمثل خطوة هامة نحو تحسين استخدام موارد الذكاء الاصطناعي ويوفر للكثير من التطبيقات الصناعية أسلوبًا ذكيًا لاستغلال القدرات الحاسوبية بشكل أكبر.

ما رأيكم في هذا التطور؟ كيف تبدو آفاق استخدام الذكاء الاصطناعي في تخصيص الموارد وفق صعوبة المهام؟ شاركونا في التعليقات.