في عالم الذكاء الاصطناعي، تلعب النماذج اللغوية الكبيرة (LLMs) دورًا حيويًا في تطبيقات متعددة، لكن ما زالت تواجه تحديات كبيرة في معالجة البيانات العددية والقدرات الرياضية. وهنا يظهر الابتكار الجديد: *بايراماثبنش* (PyraMathBench)، الذي يقدم معيارًا شاملًا يهدف إلى تقييم وتحسين القدرات الرياضية في هذه النماذج.

تتألف بايراماثبنش من 32,505 سؤالاً مستمدًا من 7,404 مسألة رياضية، مما يغطي أربعة جوانب معرفية رئيسية، و14 تصنيفًا فرعيًا، ووسيلتين مختلفتين. يكشف هذا المعيار عن ضعف كبير في أداء النماذج اللغوية، حيث تعاني من نقص في تنفيذ الحسابات العددية والتعامل مع الأسئلة العددية المجردة.

للتغلب على هذه التحديات، تم اقتراح تقنيتين جديدتين هما *وحدة التحسين الذكي والتعلم القائم على الحلول المتعددة* (SOLVE) و*تحسين السياسة النسبية التفاعلية* (IRPO). هذه التقنيات تعزز التآزر الرياضي العددي في النماذج اللغوية من خلال استدعاءات أدوات فعالة (مثل المطابقة الضبابية ورفض الاستدعاءات منخفضة الجودة). أظهرت التجارب المقارنة أن نموذج *كوين-2.5* (Qwen-2.5) حقق تحسنًا بمقدار 5.0 نقطة عند استخدام تدريب SOLVE وIRPO.

إن بايراماثبنش ليست مجرد خطوة للأمام في تحسين المهارات الرياضية للنماذج، بل تمثل أيضًا ثورة في كيفية فهمنا لقدرات الذكاء الاصطناعي في معالجة الأرقام.