في عالم الذكاء الاصطناعي، تتفوق نماذج اللغة الضخمة (Large Language Models - LLMs) في العديد من المهام، لكن سلامة قدرتها على الاستدلال لا تزال غامضة. لذلك، تم تطوير نظام X-RAY المبتكر الذي يهدف إلى تحليل هذه القدرة بطرق جديدة ومُعتمدة.

يعتمد نظام X-RAY على استخدام فحوصات معيارية تم التحقق من صحتها بشكل رسمي، ليمكّن الباحثين من تقييم فعالية نماذج اللغة في مجال الاستدلال. يقيم هذا النظام قدرة الاستدلال من خلال تمثيلها كدالة لإمكانية استخراج


هيكل رسمي، مُفعّل من خلال خصائص رسمية مثل تفاعل القيود، عمق الاستدلال، والهندسة الفراغية للحلول. وهو يقوم بتوليد فحوصات عبر أدوات رسمية مع متغيرات هيكلية مُسيطر عليها، مما يسمح بالعزل الدقيق للمعلومات الهيكلية المتزايدة من خلال المعايرة والتحقق الرسمي.

تناول البحث تقييم النماذج المتطورة في مجموعة من المشاكل التي تتراوح من المستوى الابتدائي إلى المتقدم في مجالات الرياضيات والفيزياء والكيمياء. وكشفت التحليلات عن عدم تناسق منهجي في قدرة الاستدلال لدى نماذج اللغة: حيث كانت النماذج مرنة نسبياً عند تحسين القيود، لكنها تدهورت بشكل حاد عند إعادة هيكلة فضاء الحلول، مما يشير إلى أن التعديلات تؤثر على الشكل الهيكلي الأساس.

علاوة على ذلك، فإن الفحوصات المُعيرة تميز بين النماذج التي تبدو متماثلة على المقياس القياسي، مما يسلط الضوء على نقاط الفشل التي يمكن تفسيرها هيكلياً.

يساهم نظام X-RAY، ليس فقط في تقييم النماذج، بل ويكون خالياً من التلوث ويدعم تدريب واختبار نماذج الاستدلال، مما يجعل منه أداة قوية للباحثين في هذا المجال. هل أنتم مستعدون لدخول عالم جديد من فهم الذكاء الاصطناعي؟ شاركونا آرائكم في التعليقات.