في عصر تتسارع فيه وتيرة [تطور](/tag/تطور) [نماذج [اللغة](/tag/اللغة) الكبرى](/tag/[نماذج](/tag/نماذج)-[اللغة](/tag/اللغة)-الكبرى) (Large Language [Models](/tag/models))، يصبح [تصنيف](/tag/تصنيف) قدرات [التفكير](/tag/التفكير) لهذه [النماذج](/tag/النماذج) تحدياً حقيقياً. فالأسئلة الصعبة التي يتم انتقاؤها بعناية من قِبَل البشر تتطلب [موارد](/tag/موارد) عالية، خاصة عندما يتعلق الأمر بمسابقات حديثة تتطلب [معرفة](/tag/معرفة) متخصصة بمستوى الدكتوراه.
لكن، ماذا لو استطعنا تغيير هذه القاعدة؟ هنا، يستلهم الباحثون من المبارزات الرياضية في القرن السادس عشر لتصميم '[ألعاب](/tag/ألعاب) التوكن' (The Token Games). يمثل هذا الإطار [بيئة](/tag/بيئة) [تقييم](/tag/تقييم) جديدة حيث تتحدى [النماذج](/tag/النماذج) بعضها البعض من خلال إنشاء الألغاز الخاصة بها.
تستخدم '[ألعاب](/tag/ألعاب) التوكن' [تنسيق](/tag/تنسيق) الألغاز البرمجية، حيث يُطلب من [النماذج](/tag/النماذج) تحديد مدخلات تجعل دالة معينة ترجع القيمة True. يسمح هذا الأسلوب بتمثيل المشكلات بمرونة ومراجعة الحلول التي تم التوصل إليها.
من خلال النتائج المحققة من المبارزات الثنائية، يمكننا [حساب](/tag/حساب) [تقييمات](/tag/تقييمات) Elo، مما يتيح لنا [مقارنة النماذج](/tag/مقارنة-[النماذج](/tag/النماذج)) بالنسبة لبعضها البعض. جرى [تقييم](/tag/تقييم) عشرة [نماذج](/tag/نماذج) رائدة باستخدام '[ألعاب](/tag/ألعاب) التوكن'، وتمكن الباحثون من مطابقة الترتيب مع [المعايير](/tag/المعايير) الحالية مثل 'اختبار الإنسانية النهائي' (Humanity's Last Exam)، مع [تكاليف](/tag/تكاليف) أقل من 200 دولار أمريكي، ومن دون الحاجة لمشاركة بشرية في إنشاء الألغاز.
الجدير بالذكر أنه رغم هذه الإنجازات، لا تزال عملية إنشاء الألغاز الجيدة تمثل تحدياً كبيراً للنماذج الحالية. بشكل عام، تشير هذه [الدراسة](/tag/الدراسة) إلى بوادر جديدة لتقييم [التفكير](/tag/التفكير) تأخذ في الاعتبار الابتكارية وإمكانية إنتاج المهام، بجانب [مهارات](/tag/مهارات) [حل المشكلات](/tag/حل-المشكلات) التقليدية.
ما هي آراؤكم في هذه الطريقة الجديدة لتقييم [تفكير](/tag/تفكير) [النماذج](/tag/النماذج)؟ شاركونا في [التعليقات](/tag/التعليقات).
ألعاب التوكن: تقييم تفكير نماذج اللغة عبر تحديات الألغاز
تقدم 'ألعاب التوكن' نهجًا جديدًا لتقييم قدرات نماذج اللغة الكبرى من خلال تحديات مبتكرة. يتيح هذا الإطار نماذجًا لتحدي بعضها البعض بإنشاء ألغاز خاصة بها، مما يعزز من فهمنا لعمليات التفكير لديها.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
