في عالم نماذج اللغة الكبيرة (Large Language Models)، شهدنا تقدمًا ملحوظًا في القدرات الاستدلالية، وخاصة في المنطق الاستنتاجي الضروري لاتخاذ القرارات ذات المخاطر العالية. لكن مع تطور هذه النماذج، بات من الضروري أن تتطور معايير التقييم لتواكب هذا التغيير.

لكن المشكلة تكمن في أن المعايير الحالية تفتقر إلى التحكم الدقيق في التعقيد المنطقي، وتواجه صعوبات في تحقيق توازن بين التنوع الدلالي والاتساق المنطقي. وهنا يأتي دور QMFOL، الإطار الآلي الذي نُقدمه لتوليد مهام استدلالية مبنية على المنطق أولي الأحادي (Monadic First-Order Logic).

يسمح QMFOL للمستخدمين بالتحكم الدقيق في عمق وتنوع هذه المهام، عبر إنشاء هياكل منطقية رسمية باستخدام أنماط الاقتران والانفصال. وتمكن هذه الهياكل من التحكم في عمق الاستدلال واتساعه، بالإضافة إلى أنواع العلامات والمشتتات. بعد ذلك، يتم ترجمة هذه الهياكل إلى اللغة الطبيعية باستخدام نماذج اللغة الكبيرة، مع ضمان الاتساق المنطقي من خلال التحقق العكسي باستخدام مُثبت خارجي.

استنادًا إلى هذا الإطار، أنشأنا مجموعة معايير جديدة تُدعى QMFOLBench، والتي تتضمن 2880 حالة مع 960 تكوينًا عبر أبعاد منطقية ودلالية متنوعة.

أظهرت التقييمات على ست نماذج استدلالية كبيرة (Large Reasoning Models) ونموذجين من نماذج اللغة الكبيرة تدهور الأداء وزيادة الحمل الحسابي مع ارتفاع التعقيد المنطقي. كما لوحظ أن النماذج تعمل بشكل أفضل على المهام الموسومة بـ "صحيح" مقارنة بتلك الموسومة بـ "خطأ" أو "غير معروف"، وتظهر حساسية تجاه التباين الدلالي.

بشكل عام، تقدم QMFOL نهجًا قابلًا للتوسع وموثوقًا لبناء معايير تقييم الاستدلال القابلة للتحكم، مما يعزز القدرة على تقييم إمكانيات الاستدلال في النماذج اللغوية الحديثة بشكل أدق. فهل أنتم مستعدون لمواكبة هذه الثورة في عالم الذكاء الاصطناعي؟ شاركونا آراءكم في التعليقات!