تواجه نماذج اللغة الضخمة (Large Language Models) تحديات ملحوظة في معالجة المسائل الرياضية، وهو ما أكده البحث المنشور مؤخرًا حول تأثير التغييرات العددية على مستوى الأداء. على الرغم من قدرة هذه النماذج على تحقيق نتائج قوية في اختبارات التفكير الرياضي، لا تزال هناك رغبة متزايدة لفهم مدى قدرتها على حل المسائل الرياضية مباشرة بدون الاعتماد على أدوات خارجية.

تكشف دراسات سابقة أن هذه النماذج حساسة للتغيرات العددية، حيث تستطيع حل مسألة معينة بينما تفشل في حل مسألة مشابهة تتطلب نفس طريقة التفكير ولكن بأرقام مختلفة.

في البحث، تم استخدام خوارزمية تلقائية لتوليد هجمات إعادة الترقيم العددي من أجل اختبار قدرة النماذج على التعامل مع هذه المشاكل. على عكس الأساليب التقليدية التي تتطلب إعدادات يدوية، تعتمد هذه الطريقة على تمثيلات رمزية خاصة بكل مسألة وتوليد تغييرات عددية مضبوطة.

أظهرت النتائج أن نموذج DeepSeek-R1 (70B) ونموذج Gemma4 (31B) ونموذج GPT-OSS (120B) يتباين أداؤهم بشكل ملحوظ وفقًا لطبيعة مجموعة البيانات المستخدمة. على سبيل المثال، انخفضت دقة النتائج في مجموعة بيانات GSM8K بمعدل ما بين 12.16 و25.82 نقطة مئوية، بينما كانت نتائج MAWPS وMultiArith أكثر استقرارًا، حيث بقيت دقة معظم النماذج عند 98% أو أعلى.

تثير هذه النتائج تساؤلات حول كيفية تصميم مجموعات البيانات والمشكلات الرياضية لضمان التحمل ضد التغييرات العدديّة، مما يعكس أهمية الأساليب الجديدة في تحسين قوة نماذج اللغة وتعزيز موثوقيتها.