في عالم الذكاء الاصطناعي، تُعتبر نماذج اللغات الكبيرة (Large Language Models) من أبرز التطورات التقنية، لكن الاعتماد على الإجابات النهائية فقط لتقييم قدرتها على التفكير يمكن أن يغفل عن الفشل في الخطوات المتوسطة. هنا يأتي دور أداة Omanic، التي تم تصميمها لتكون معياراً مفتوحاً لتقييم الأسئلة المتعددة الخطوات (Multi-hop Reasoning).

تتضمن أداة Omanic أكثر من 10,296 مثالاً تم إنتاجه آلياً للتدريب، إضافة إلى 967 مثالاً تم تقييمه من قبل خبراء لضمان دقة النتائج. كل سؤال في Omanic يتم فصله إلى أسئلة فرعية، وإجابات متوسطة، وتوزيع هيكل بياني منظم، مما يسهل فهم وقياس قدرات التفكير.

أظهرت التجارب مع نماذج ذكاء اصطناعي مفتوحة المصدر وأخرى خاصة أن Omanic يُعد تحدياً حقيقياً، مع الكشف عن عنق زجاجة في مراحل التفكير المتقدمة وانتشار الأخطاء على طول سلاسل التفكير. وعندما تم تحسين نماذج الذكاء الاصطناعي باستخدام بيانات Omanic، تحقق متوسط زيادة قدره 7.41 نقطة في ستة معايير رياضية.

هذا التطور يعد خطوة هامة نحو تحسين أدوات تقييم الذكاء الاصطناعي وتوسيع آفاق البحث في مجالات جديدة. يمكن الوصول إلى البيانات والأكواد المتعلقة بـ Omanic على الروابط التالية: https://huggingface.co/datasets/li-lab/Omanic و https://github.com/XiaojieGu/Omanic.

ما رأيكم في هذا التطور؟ شاركونا في التعليقات!