في خطوة رائدة نحو تعزيز قدرات نماذج اللغة الضخمة (LLMs)، تم تقديم نظام "ProofGrid" كمنصة جديدة لتقييم مهارات التفكير لدى هذه النماذج من خلال استخدام الإثباتات القابلة للتحقق، بدلاً من الاعتماد فقط على الإجابات النهائية. يقدم "ProofGrid" مجموعة متنوعة من 15 مهمة تتراوح بين كتابة الإثباتات، والتحقق منها، وإخفاء بعض العناصر، وملء الفجوات.

أُعِبِرُ المهام باستخدام صياغة رسمية بسيطة، لا سيما باستخدام لغة الاستنتاج الطبيعي (NDL)، التي تتميز بكونها لغة متكاملة وقصيرة تناسب العروض التقديمية القصيرة، وتدعم التحقق الدقيق والقابل للتدقيق.

يسمح هذا النموذج بتقييم دقيق وقابل للتكرار، بعيدًا عن التقييمات البشرية أو تلك التي تصدرها نماذج اللغة. يغطي المعيار طيفًا من التحديات، بدءًا من المهام الأساسية إلى المهمات الأكثر تعقيدًا، التي لا تستطيع أي نموذج حالي حلها. كما يسهم في تقليل الاعتماد على المعرفة المتخصصة أو وفرة السياق.

تتمثل إحدى الابتكارات المنهجية في إدخال نظام موثوق للتحقق من الإثباتات، الذي يمكنه تحمل الانحرافات الطفيفة مع التركيز على أول حالة فشل في التفكير، مما يؤدي إلى تحسين دقة القياس.

وعند استخدام هذا النظام، تم تقييم مجموعة واسعة من النماذج المفتوحة والمغلق، وأظهرت النتائج تطورًا سريعًا ولكنها تمثل حدودًا كبيرة أيضًا: فقد أظهرت النماذج المتقدمة أداءً جيدًا في العديد من المهام الأساسية، لكنها لا تزال بعيدة عن حل التحديات الأكثر صعوبة، خاصةً تلك التي تتطلب Reasoning Combinatorial عالميًا أو تجميع إثباتات على مستوى منخفض.

لقد لاحظنا أيضًا وجود عدم استقرار إبستيمي، حيث يمكن للنماذج إنشاء إثباتات معيبة لكنها ترفض تلك الاستنتاجات عندما يتم النظر فيها بمفردها. وبهذا، تم وضع مؤشر الاستقرار الإبستيمي لتحليل هذه الظواهر. في النهاية، تم تعزيز الدقة باختبارات متعددة ومنهجيات متنوعة تتعلق بالتمييز بين المهام بناءً على معلومات فيشر.

ما رأيكم في هذا الابتكار الجديد في مجال الذكاء الاصطناعي؟ هل ترون أنه سيغير قواعد اللعبة في كيفية تقييم نماذج اللغة؟ شاركونا في التعليقات!