في عصر تتسارع فيه وتيرة تطور نماذج اللغة الكبرى (Large Language Models)، يصبح تصنيف قدرات التفكير لهذه النماذج تحدياً حقيقياً. فالأسئلة الصعبة التي يتم انتقاؤها بعناية من قِبَل البشر تتطلب موارد عالية، خاصة عندما يتعلق الأمر بمسابقات حديثة تتطلب معرفة متخصصة بمستوى الدكتوراه.
لكن، ماذا لو استطعنا تغيير هذه القاعدة؟ هنا، يستلهم الباحثون من المبارزات الرياضية في القرن السادس عشر لتصميم 'ألعاب التوكن' (The Token Games). يمثل هذا الإطار بيئة تقييم جديدة حيث تتحدى النماذج بعضها البعض من خلال إنشاء الألغاز الخاصة بها.
تستخدم 'ألعاب التوكن' تنسيق الألغاز البرمجية، حيث يُطلب من النماذج تحديد مدخلات تجعل دالة معينة ترجع القيمة True. يسمح هذا الأسلوب بتمثيل المشكلات بمرونة ومراجعة الحلول التي تم التوصل إليها.
من خلال النتائج المحققة من المبارزات الثنائية، يمكننا حساب تقييمات Elo، مما يتيح لنا مقارنة النماذج بالنسبة لبعضها البعض. جرى تقييم عشرة نماذج رائدة باستخدام 'ألعاب التوكن'، وتمكن الباحثون من مطابقة الترتيب مع المعايير الحالية مثل 'اختبار الإنسانية النهائي' (Humanity's Last Exam)، مع تكاليف أقل من 200 دولار أمريكي، ومن دون الحاجة لمشاركة بشرية في إنشاء الألغاز.
الجدير بالذكر أنه رغم هذه الإنجازات، لا تزال عملية إنشاء الألغاز الجيدة تمثل تحدياً كبيراً للنماذج الحالية. بشكل عام، تشير هذه الدراسة إلى بوادر جديدة لتقييم التفكير تأخذ في الاعتبار الابتكارية وإمكانية إنتاج المهام، بجانب مهارات حل المشكلات التقليدية.
ما هي آراؤكم في هذه الطريقة الجديدة لتقييم تفكير النماذج؟ شاركونا في التعليقات.
ألعاب التوكن: تقييم تفكير نماذج اللغة عبر تحديات الألغاز
تقدم 'ألعاب التوكن' نهجًا جديدًا لتقييم قدرات نماذج اللغة الكبرى من خلال تحديات مبتكرة. يتيح هذا الإطار نماذجًا لتحدي بعضها البعض بإنشاء ألغاز خاصة بها، مما يعزز من فهمنا لعمليات التفكير لديها.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
