في عالم يتقدم فيه الذكاء الاصطناعي بسرعة، تأتي الدراسات الحديثة لتسلط الضوء على كيفية أداء النماذج أمام تحديات رياضية معقدة. تمثل LinAlg-Bench معيارًا تشخيصيًا جديدًا يهدف إلى تقييم عشرة من النماذج اللغوية الرائدة في مجال حساب الجبر الخطي. مع تقدم الجبر الخطي ضمن أبعاد تعتمد على مصفوفات بحجم 3x3 و4x4 و5x5، قام الباحثون باختبار 660 مشكلة معتمدة من SymPy من خلال مجموعة متنوعة من المهام.

هذا التقييم لم يقف عند حدود الدقة الثنائية فقط، بل استخدم خط أنابيب جنائي آلي ثلاثي المراحل لتصنيف 1,156 فشل إلى عشرة فئات رئيسية مع أنواع فرعية دقيقة. والنتيجة كانت مفاجئة: فشل النماذج في الحسابات الرياضية ليس عشوائيًا، بل مقيد هيكليًا بنوع الخوارزمية وأبعاد المصفوفة.

وتم اكتشاف عتبة سلوكية حادة عند أبعاد 4x4، حيث كانت النماذج تفشل في أداء العمليات بخطأ في التنفيذ، مثل فشل تتبع الإشارة، الانجراف الحسابي، وأخطاء التناوب. أما عند هذه النقطة وما فوقها، مالت النماذج إلى التخلي عن العمليات الحسابية، مما دفعها إلى تصنيع استجابات من خلال تظاهرة الدور، أو الهلوسة الهيكلية بدلاً من إجراء الحساب.

يعكس هذا الانتقال من التصنيع إلى التخلي نمطًا شائعًا عبر جميع مستويات النماذج وهياكلها، مما يشير إلى حد الذاكرة الفعالة بدلاً من وجود فجوة معرفية. كما تم تحديد ثلاثة أنواع جديدة من الأخطاء التي ظهرت عند الأبعاد الأكبر، وهو ما يعزز أهمية إدارة الاستراتيجيات الحسابية.

هذه النتائج تقدم رؤى عميقة ودقيقة حول قيود نماذج الذكاء الاصطناعي، لذا يظل السؤال: كيف ستؤثر هذه الاكتشافات على تطوير التكنولوجيا في المستقبل؟