في عالم الذكاء الاصطناعي، ازدادت أهمية نماذج اللغة الكبيرة (LLM) بشكل كبير، خاصة في مجال التفكير الرياضي. ورغم أن هذه النماذج تحقق دقة عالية في الأداء على اختبارات الاستدلال الرياضي، إلا أن الدقة وحدها لا تعكس مرونة التفكير المطلوبة في مواقف متنوعة. هنا يأتي دور إطار التقييم الاستراتيجي الجديد، الذي يقدم طريقة جديدة لفهم كيف تتعامل هذه النماذج مع المشاكل المختلفة.
تم تصميم هذا الإطار ليقوم بتقييم 80 مسألة رياضية من مشاكل AMC 10/12 وAIME، مستنداً إلى 217 عائلة استراتيجية مستمدة من منصة AoPS. يعكس ذلك التنوع الموجود في الاستراتيجيات المعتمدة، حيث يتم تحديد هوية الاستراتيجية وصحتها وصوابها من خلال تقنيات ذكية تتضمن تدخل البشر.
تظهر نتائج الدراسات أن هناك انفصالاً ملحوظاً بين دقة الإجابات وتنوع الاستراتيجيات المستخدمة. فعند تقديم مشكلة تتطلب حلاً واحداً، تمكنت جميع النماذج من تحقيق دقة تتراوح بين 95% و100%. لكن عندما تم تقديم مشاكل تتطلب استراتيجيات متعددة، لم تستطع النماذج التعافي من الاستراتيجيات بكفاءة مقارنة بمجموعة الاستراتيجيات البشرية.
على سبيل المثال، نجح نموذج Gemini في توليد 184 استراتيجية صالحة، بينما حقق نموذج GPT 151، ونموذج Claude 110. تشير هذه الفجوات إلى أن النماذج لا تغطي جميع الاستراتيجيات البشرية، لكنها تظهر بعض القدرات البديلة في التفكير.
كما أظهرت اختبارات متكررة على 20 مسألة رياضية انخفاضًا في عدد الاستراتيجيات المكتشفة، حيث استعاد النموذج الأكثر قوة فقط 39 من أصل 55 استراتيجية مرجعية، أي بنسبة 71%. هذا الأمر يؤكد الأهمية المتزايدة لتنويع الاستراتيجيات كبعد مكمل في تقييم التفكير الرياضي، بعيداً عن مجرد تصحيح الإجابات.
استراتيجية جديدة في الذكاء الاصطناعي: كيف تتجاوز نماذج اللغة الكبيرة (LLM) مجرد الدقة في التفكير الرياضي؟
تظهر الأبحاث الحديثة أن الدقة وحدها لا تكفي لتقييم قدرات المعرفة الرياضية لنماذج اللغة الكبيرة (LLM). يسلط إطار التقييم الاستراتيجي الضوء على أهمية تنوع الاستراتيجيات في هذه النماذج.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
