في عالم تكنولوجيا الذكاء الاصطناعي، يبدو أن نماذج اللغة الضخمة (Large Language Models - LLMs) تفتح آفاقًا جديدة، خاصة في كيفية التفكير في الإبداع العلمي. دراستنا الأخيرة تسلط الضوء على رحلة مثيرة لاستكشاف القدرة الفائقة لنماذج اللغة هذه في توليد المعادلات الرياضية من النصوص العلمية.

التحديات السابقة تركزت على عدة جوانب، منها عدم الهيكلية في الربط بين النصوص والمعادلات، الاعتماد على تعدد المعادلات، وكذلك قيود التقييم القائم على البشر. لمواجهة هذه التحديات، قمنا بإنشاء مجموعة بيانات تضم أوراق بحثية في الذكاء الاصطناعي، حيث تم إعداد نصوص سياقية بجوار المعادلات الحقيقة ووصف المتغيرات.

عبر تطوير نظام توليد معادلات قابل للتفسير، قمنا بتقييم قدرات هذا النظام عبر نماذج LLMs مفتوحة ومغلقة المصدر. لقد أدخلنا بروتوكول تقييم مبتكر يجمع بين المقاييس التلقائية، ومعايير قائمة على LLMs، وأحكام بشرية، لتقييم الدقة، القابلية للتفسير، ومحاذاة النتائج مع تقييمات البشر.

تشير النتائج إلى أن نماذج LLMs تقدم أداءً معتدلاً في قياس التشابه بناءً على المعاني والنحو، لكنها تواجه صعوبة في الدقة الدلالية. كما أظهر مقارنة بين تقييمات LLMs والأحكام البشرية وجود اختلافات محدودة، مما يبرز التحديات التي تواجه استخدام نماذج اللغة الضخمة لتقييم جودة المعادلات.

هذه النتائج توفر رؤى قيمة لتحسين نماذج توليد المعادلات وتطوير طرق تقييم أكثر موثوقية للنصوص العلمية. ولضمان إمكانية إعادة إنتاج الدراسة، نتطلع إلى تقديم الكود والبيانات التي تم استخدامها في هذه الأبحاث.