عند التعامل مع الشيفرات المولّدة بواسطة نماذج اللغات الضخمة (Large Language Models) في مجال المحاكاة العلمية، غالباً ما يتم اعتبار عملية التنفيذ الناجحة مؤشراً على صحتها. لكن، في الواقع، يمكن أن تنجح الشيفرة في الأداء ولكنها تحتوى على معادلات تحكم تختلف عن نية المستخدم، مما يعرف بفجوة الفهم والتوليد (comprehension-generation gap).
في هذا السياق، ابتكر الباحثون أسلوباً جديراً بالاهتمام ضمن إطار عمل MOOSE، حيث يتم الربط بين كائنات Kernel وBC (Boundary Conditions) بشكل يمكن من إعادة بناء معادلات التفاضل الجزئي (PDE) المقصودة. من خلال هذا الربط، استحدث الباحثون مقياس جديد يسمى مؤشر موثوقية النية (Intent Fidelity Score - IFS)، الذي يغطي المعادلات الحاكمة وشروط الحدود والشروط الأولية والمكونات الزمنية.
استناداً إلى مؤشر IFS، تم تطوير حلقة تحسين تقوم على أسس قاعدية، تستخدم تقارير انتهاك محددة لتصحيح الشيفرة المولدة بشكل تكراري. تم اختبار هذه الطريقة على مجموعة بيانات MooseBench التي تحتوي على 220 حالة مختلفة لمحاكاة الفيزياء، وثبت أنها تحسن من متوسط IFS بشكل مستمر، خاصة في الحالات الصعبة. في الحالات التي كان فيها معدل IFS أقل من 0.7، أثبتت عمليات التحسين أنها تزيد من المقياس بمقدار يتراوح بين 0.22 إلى 0.41.
وفي مراجعة النشر، أظهرت عمليات الإصلاح التي تعتمد على التنفيذ فقط تحسنًا في النجاح، ولكنها كشفت أيضًا أن 39-40% من الحالات لا تزال تعمل لكنها تحل الفيزياء الخاطئة. تشير التجارب على أربع لغات برمجة خاصة بالـ PDE إلى أن نمط إعادة البناء والمقارنة يمكن أن يتجاوز تطبيق MOOSE.
تؤكد هذه النتائج على أهمية التحقق من صحة الشيفرة المولدة في المحاكاة العلمية ضد الهيكل الرياضي الذي يجب أن ترمز إليه، بدلاً من قبولها استنادًا إلى التنفيذ فقط.
هل سبق لك أن واجهت الفجوة بين ما تريد تحقيقه وكود البرمجة الناتج؟ شاركنا أفكارك في التعليقات!
تجاوز الفجوة بين النية والتحقق: كيف يمكن للذكاء الاصطناعي تحسين محاكاة الفيزياء المتعددة
قدم الباحثون أسلوبًا مبتكرًا للتحقق من صحة النية في الشيفرات المولّدة بواسطة نماذج اللغات الضخمة (LLMs). يكشف هذا البحث عن الفجوة بين النية الفيزيائية والكود المولد، ويقترح تحسينات فعّالة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
