تسعى معايير التفكير الرياضي والعلوم إلى تقييم الصعوبة بناءً على نسبة النجاح في الوصول إلى الحلول المثالية، والمعروف بـ"pass@k"، لكن دراسة جديدة كشفت عن نقطة عمياء حرجة في هذا النظام. السلطات الحديثة على النماذج اللغوية تبرز أهمية هذه النتائج المثيرة.

في اختباراتنا التي شملت ثمانية نماذج مفتوحة، أوضحنا أن بين 10.3% و22.9% من الأمثلة التي فشلت نماذج الذكاء الاصطناعي في حلها خلال ست محاولات استُطِيع حلها باستخدام أسلوب تحكم محدد يعتمد على ست سلاسل تمثل تقنيات "التحليل المرتكز" (greedy decoding) بالإضافة إلى خمس تحويلات بسيطة.

من المثير للاهتمام أن تقنيات مثل غرس النشاط (activation grafting) لم تستخدم كوسيلة تفسير، بل كأداة لتوسيع خيارات الحلول. النتائج المترتبة على هذا البحث تشير إلى أن المشاكل المعقدة تظل قابلة للاكتشاف داخل التيارات المتبقية للنماذج، مما يعكس تخلف النماذج عنها في سياق الاستدلال الاعتيادي.

تفتح هذه الأبحاث الأفق لتحسين نماذج الذكاء الاصطناعي وتطوير استراتيجيات تقييم جديدة تنير الطريق أمام الباحثين والمطورين في هذا المجال. هل سيساهم تقدير الصعوبة بطريقة أكثر دقة في تحسين تكنولوجيا الذكاء الاصطناعي؟

ما رأيكم في هذا التطور؟ شاركونا آرائكم في التعليقات.