تواجه نماذج اللغة الضخمة (Large Language Models) تحديات ملحوظة في معالجة المسائل الرياضية، وهو ما أكده البحث المنشور مؤخرًا حول تأثير التغييرات العددية على مستوى الأداء. على الرغم من قدرة هذه النماذج على تحقيق نتائج قوية في اختبارات التفكير الرياضي، لا تزال هناك رغبة متزايدة لفهم مدى قدرتها على حل المسائل الرياضية مباشرة بدون الاعتماد على أدوات خارجية.
تكشف دراسات سابقة أن هذه النماذج حساسة للتغيرات العددية، حيث تستطيع حل مسألة معينة بينما تفشل في حل مسألة مشابهة تتطلب نفس طريقة التفكير ولكن بأرقام مختلفة.
في البحث، تم استخدام خوارزمية تلقائية لتوليد هجمات إعادة الترقيم العددي من أجل اختبار قدرة النماذج على التعامل مع هذه المشاكل. على عكس الأساليب التقليدية التي تتطلب إعدادات يدوية، تعتمد هذه الطريقة على تمثيلات رمزية خاصة بكل مسألة وتوليد تغييرات عددية مضبوطة.
أظهرت النتائج أن نموذج DeepSeek-R1 (70B) ونموذج Gemma4 (31B) ونموذج GPT-OSS (120B) يتباين أداؤهم بشكل ملحوظ وفقًا لطبيعة مجموعة البيانات المستخدمة. على سبيل المثال، انخفضت دقة النتائج في مجموعة بيانات GSM8K بمعدل ما بين 12.16 و25.82 نقطة مئوية، بينما كانت نتائج MAWPS وMultiArith أكثر استقرارًا، حيث بقيت دقة معظم النماذج عند 98% أو أعلى.
تثير هذه النتائج تساؤلات حول كيفية تصميم مجموعات البيانات والمشكلات الرياضية لضمان التحمل ضد التغييرات العدديّة، مما يعكس أهمية الأساليب الجديدة في تحسين قوة نماذج اللغة وتعزيز موثوقيتها.
تحدّيات جديدة في الذكاء الاصطناعي: اختبار قدرة نماذج اللغة على حل المسائل الرياضية
تظهر الأبحاث الجديدة أن نماذج اللغات الضخمة (Large Language Models) تعاني من ضعف في معالجة المسائل الرياضية، خاصة عندما يتم تغيير الأرقام في المسألة. الاستجابة لهذا التحدي تتطلب أساليب مبتكرة ومكافحة للثغرات في القابلية للاختراق.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
