يبدو أن نماذج اللغة الكبرى (Large Language Models) باتت تحظى بتطبيقات متزايدة في صناعة البترول، مما يبرز الحاجة إلى إطار تقييم معين يتناسب مع هذا المجال الفني المتخصص. في هذا السياق، تم تطوير معيار PetroBench، وهو دراسة مبتكرة تهدف إلى توفير تقييم شامل لنماذج اللغة الكبرى في هندسة البترول.

يتكون المعيار من ثلاث مراحل أساسية: معالجة البيانات الأولية، تصفية الجودة، والتحقق المتعدد للنماذج. ومن خلال مراجعة الخبراء، تم بناء بنك أسئلة موحد يتمتع بصلات قوية بالموضوع وقدرة مميزة على التمييز. يتناول المعيار مجالات هندسة الإنتاج، والمكامن، والحفر، ويشمل 1200 سؤال تتنوع بين أسئلة اختيار من متعدد، وصحيحة أو خاطئة، وتعريفات المصطلحات، وكذلك إجابات قصيرة.

تم تقييم ثمانية من النماذج الرئيسية لنماذج اللغة الكبرى تحت بيئة API موحدة. أظهرت النتائج أن النماذج أدت بشكل أفضل في الأسئلة ذات الطابع الذاتي مقارنة بالأسئلة الموضوعية، مما يشير إلى وجود ضعف في التمييز المعرفي القائم على الحقائق. وكانت أعلى دقة تم تسجيلها في الأسئلة متعددة الخيارات وصحيحة/خاطئة 65.3% و74.3% على التوالي. بينما حققت نماذج Gemini-3-Pro وKimi-K2.5 وClaude-Opus-4.6-Thinking أعلى النقاط الإجمالية بين 72% و74%.

كما أظهرت النماذج أداءً متميزًا في مجال هندسة الإنتاج، بينما كانت الأقل أداءً في هندسة المكامن. ومن الملاحظ أن النماذج الصينية حققت تفوقًا في الأسئلة متعددة الخيارات، بينما أظهرت النماذج الدولية أداءً طفيفًا أفضل في الأسئلة القصيرة. يوفر هذا المعيار مرجعًا قابلًا للتكرار وعمليًا لتقييم ونشر نماذج اللغة الكبرى في مجال هندسة البترول، مما يساهم في تحسين فهمنا وإمكانيات استخدام هذه التقنية الحديثة.

هل أنتم مهتمون بتطبيقات الذكاء الاصطناعي في مجالات صناعية متخصصة؟ شاركونا آرائكم في التعليقات!