في تطور مثير في عالم الذكاء الاصطناعي، تم الكشف عن معيار ثيرمو كيو إيه (ThermoQA) الذي يهدف إلى قياس قدرة نماذج اللغة الضخمة (Large Language Models) على معالجة مسائل الديناميكا الحرارية. يتضمن هذا المعيار 293 مسألة متنوعة تتوزع على ثلاثة مستويات: استرجاع الخصائص (Property Lookups) بـ 110 سؤال، تحليل المكونات (Component Analysis) بـ 101 سؤال، وتحليل الدورات الكاملة (Full Cycle Analysis) بـ 82 سؤال.

تم حساب الحقائق العلمية باستخدام برنامج CoolProp 7.2.0، والذي يغطي مواد مثل الماء، والغاز R-134a، والهواء بثبات حراري متغير. وقد تم اختبار ستة نماذج لغة رائدة عبر ثلاث جولات مستقلة لكل منها. تصدرت قائمة النتائج نموذج Claude Opus 4.6 بنسبة نجاح بلغت 94.1%، تليه GPT-5.4 بنسبة 93.1%، وGemini 3.1 Pro بنسبة 92.5%.

تبين أن هناك تدهوراً في الأداء بين المستويات المختلفة، حيث تراوحت الانخفاضات في الأداء من 2.8 نقطة مئوية (Opus) إلى 32.5 نقطة مئوية (MiniMax)، مما يعكس أن حفظ الخصائص لا يعني بالضرورة القدرة على التفكير الديناميكي الحراري. تعتبر نماذج المياه فوق الحرجة، وغاز R-134a، وتحليل التوربينات الغازية ذات الدورة المدمجة مؤشراً طبيعياً للاختلاف الكبير في الأداء، حيث تصل الفجوات في الأداء إلى 40-60 نقطة مئوية. كما أظهرت القياسات المتعددة ثباتاً في التفكير، حيث تراوحت نسبة التباين من +/-0.1% إلى +/-2.5%، مما يوضح أن الثبات في التفكير يمكن اعتباره محور تقييم مميز.

لمن يرغب في استكشاف البيانات والبرمجيات المستخدمة في هذا المعيار، يمكن العثور عليها كمدخل مفتوح المصدر على [Hugging Face](https://huggingface.co/datasets/olivenet/thermoqa). ما رأيكم في هذا التطور المثير في عالم نماذج اللغة؟ شاركونا آرائكم في التعليقات!