في السنوات الأخيرة، أثارت الدراسات المعنية بموثوقية المعايير الرياضية المستخدمة لتقييم نماذج اللغة الكبيرة (Large Language Models) قلقاً كبيراً بين الباحثين. المشكلة ليست فقط في التصميم البسيط للمعايير، ولكن أيضاً في احتمال تلوث البيانات، مما يعوق فهم القدرات الحقيقية لهذه النماذج في التفكير الرياضي. لذلك، تم تقديم RV-Bench، منهجية تقييم جديدة تم تصميمها خصيصاً لتقييم نماذج اللغة الكبيرة باستخدام أسئلة المتغيرات العشوائية (Random Variables Questions).

تستند منهجية RV-Bench إلى تطوير وظائف توليد الأسئلة، التي تتيح إنشاء أسئلة تتعلق بالمتغيرات العشوائية، بحيث تحتوي خلفيتها على محتوى مماثل لمشكلات المعيار الأصلية، ولكن مع تركيبات متغيرات عشوائية، مما يجعلها "غير مرئية" للنماذج.

لكي تتمكن النماذج من الإجابة على هذه الأسئلة بشكل صحيح، يجب أن تفهم تماماً نمط السؤال الأساسي. ومن خلال دقة النموذج في الإجابة ومرونته، يمكن قياس قدراته الحقيقية في التفكير الرياضي.

أجريت تجارب موسعة على أكثر من 30 نموذج لغة كبير من خلال أكثر من 1000 سؤال متغير عشوائي. ووجدت النتائج أن نماذج اللغة تظهر عدم توازن في الكفاءة بين البيانات التي تم التعرف عليها وتلك "غير المرئية". كما أظهرت RV-Bench أنه رغم محدودية تعميم الكفاءة عبر مهام التفكير الرياضي المماثلة، إلا أنه يمكن استنباطها بفعالية من خلال توسيع نطاق الاختبار في الوقت المحدد.

مشروع مثل RV-Bench يمكن أن يُحدث ثورة في استراتيجيات التقييم ويعزز من فهمنا لمدى قدرة هذه النماذج على معالجة المسائل الرياضية المعقدة. إذا كنت مهتماً بتأثير تقنيات الذكاء الاصطناعي على رياضيات المستقبل، ما رأيك في هذا التطور؟ شاركونا آراءكم في التعليقات!