تحدّيات جديدة في الذكاء الاصطناعي: اختبار قدرة نماذج اللغة على حل المسائل الرياضية

Q: ما هو موضوع مقال "تحدّيات جديدة في الذكاء الاصطناعي: اختبار قدرة نماذج اللغة على حل المسائل الرياضية"؟

يتناول المقال بالتفصيل والتحليل آخر الأخبار والتطورات المتعلقة بـ "تحدّيات جديدة في الذكاء الاصطناعي: اختبار قدرة نماذج اللغة على حل المسائل الرياضية" في عالم الذكاء الاصطناعي والتكنولوجيا الناشئة.

تواجه نماذج اللغة الضخمة (Large Language Models) تحديات ملحوظة في معالجة المسائل الرياضية، وهو ما أكده البحث المنشور مؤخرًا حول تأثير التغييرات العددية على مستوى الأداء. على الرغم من قدرة هذه النماذج على تحقيق نتائج قوية في اختبارات التفكير الرياضي، لا تزال هناك رغبة متزايدة لفهم مدى قدرتها على حل المسائل الرياضية مباشرة بدون الاعتماد على أدوات خارجية.

تكشف دراسات سابقة أن هذه النماذج حساسة للتغيرات العددية، حيث تستطيع حل مسألة معينة بينما تفشل في حل مسألة مشابهة تتطلب نفس طريقة التفكير ولكن بأرقام مختلفة.

في البحث، تم استخدام خوارزمية تلقائية لتوليد هجمات إعادة الترقيم العددي من أجل اختبار قدرة النماذج على التعامل مع هذه المشاكل. على عكس الأساليب التقليدية التي تتطلب إعدادات يدوية، تعتمد هذه الطريقة على تمثيلات رمزية خاصة بكل مسألة وتوليد تغييرات عددية مضبوطة.

أظهرت النتائج أن نموذج DeepSeek-R1 (70B) ونموذج Gemma4 (31B) ونموذج GPT-OSS (120B) يتباين أداؤهم بشكل ملحوظ وفقًا لطبيعة مجموعة البيانات المستخدمة. على سبيل المثال، انخفضت دقة النتائج في مجموعة بيانات GSM8K بمعدل ما بين 12.16 و25.82 نقطة مئوية، بينما كانت نتائج MAWPS وMultiArith أكثر استقرارًا، حيث بقيت دقة معظم النماذج عند 98% أو أعلى.

تثير هذه النتائج تساؤلات حول كيفية تصميم مجموعات البيانات والمشكلات الرياضية لضمان التحمل ضد التغييرات العدديّة، مما يعكس أهمية الأساليب الجديدة في تحسين قوة نماذج اللغة وتعزيز موثوقيتها.

تحدّيات جديدة في الذكاء الاصطناعي: اختبار قدرة نماذج اللغة على حل المسائل الرياضية

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

ثورة جديدة في عالم البرمجة: شركة Gitar الناشئة تؤمن الكود باستخدام الذكاء الاصطناعي!

جوجل تطلق ميزة الذكاء الشخصي جيمني في الهند: تجربة مخصصة في متناول يدك!

أوبن أيه آي تستحوذ على شركة هيرو لتكنولوجيا التمويل الشخصي: خطوة نحو التخطيط المالي الذكي!