في ظل التطورات السريعة في مجال الذكاء الاصطناعي، تسلط ورقة بحثية جديدة الضوء على قدرة نماذج اللغات الضخمة (LLMs) في اكتشاف وتصنيف أخطاء النقطة العائمة في كود البرمجيات. تطرح هذه الدراسة أداة جديدة تُعرف باسم "InterFLOPBench"، والتي تحتوي على 90 نموذج C و 1130 عينة اختبار مصممة بعناية لتقييم أداء LLMs عبر ست فئات من أخطاء النقطة العائمة، بما في ذلك:

1. **الإلغاء (Cancellation)**
2. **المقارنة (Comparison)**
3. **القسمة على صفر (Division by Zero)**
4. **التجاوز (Overflow)**
5. **النقص (Underflow)**
6. **قيمة غير عددية (NaN)**

وقد تم تقييم 14 نموذجاً من نماذج اللغات الضخمة باستخدام إطار عمل يعامل اكتشاف أخطاء النقطة العائمة كمسألة تصنيف متعددة التصنيفات، مع القياس باستخدام مقياس F1-score لقياس الأداء.

وتشير النتائج إلى أن النماذج الأحدث، مثل **Qwen 3 32b** و**Gemini 2.5 Flash** و**Phi 4 Reasoning** و**DeepSeek R1T2** و**gpt-oss** (بحجم 20b و 120b)، قد حققت أداءً يتجاوز 0.88 في مقياس F1-score. ومع ذلك، اختلف الأداء حسب فئات الأخطاء، حيث كانت العمليات الواضحة، مثل القسمة على صفر، تحقق متوسط F1-score يبلغ 0.8479، بينما كانت الظواهر العددية الأكثر دقة، كالنقص والإلغاء، تحقق متوسطات أقل (0.6059 و0.6164 على التوالي).

تُظهر هذه الدراسات كيف يمكن لمتخصصي البرمجة الاعتماد على هذه النماذج لتحديد الأخطاء الفنية بدقة أكبر، مما يوفر وقت وجهد كبيرين في معالجة الشيفرات المعقدة.