ظهر في الآونة الأخيرة اهتمام متزايد بتأثير المواقع في تقييم نماذج الذكاء الاصطناعي، خاصةً عندما يتعلق الأمر بمهمات مثل Needle-in-a-Haystack وRULER. رغم ذلك، فإن معايير الاستدلال الشائعة لا تضع في اعتبارها موقع المهمة ضمن السياقات الطويلة. هنا يأتي دور الدراسة الجديدة التي قامت بتحقيق شامل على 11 معيارًا طويل السياق، لتجد أنه لا يوجد أي منها يتحكم في موقع المهمة، محتوى الملء، وطول السياق بشكل متكامل.
استعرضت الدراسة أيضًا أربعة إصدارات رائدة في هذا المجال، واكتشفت عدم وجود نتائج رئيسية لمعايير مثل NIAH وRULER أو عائلة LongBench، بينما تصدرت معايير البرمجة والعمليات الذكية جداول النتائج. في ضوء ذلك، تم اقتراح إطار تقييم جديد يسمى تقييم البيانات السياقية (Context Rot Evaluation - CRE)، الذي يتغير فيه جميع العوامل الثلاثة.
أثبتت الاختبارات أن بعض النماذج قد تتعرض لتدهور كبير في الأداء عندما تنتقل المهمة المستهدفة من النهاية إلى المنتصف،زداد هذا التدهور مع زيادة طول السياق. على سبيل المثال، انخفض أداء نموذج MiMo-v2-Flash بمعدل 88 نقطة عند استخدام سياق ملئ بالحلول.
أضف إلى ذلك، أظهرت النماذج الجديدة انخفاضات أقل حدة، حيث بقي ثلاثة من أربعة ضمن نطاق +/-6 نقاط عند طول سياق 64K. وفي المقابل، أظهر نموذج MiMo-V2.5-Pro تحسنًا كبيرًا، حيث تقلصت الفجوة مع نموذج MiMo-v2-Flash بمقدار 56 نقطة.
هذه النتائج تكشف فجوة هيكلية مهمة في تصميم تقييمات الاستدلال الحالية، حيث إن ضعف المواقع التي تزداد مع طول السياق لا يمكن قياسها دون التحكم في موضع المهمة. لذا، كيف يمكن لهذا الاكتشاف أن يؤثر على تصميم وتنفيذ نماذج الذكاء الاصطناعي في المستقبل؟
مفاجأة في نماذج الذكاء الاصطناعي: أخطاء موقعية في سياقات طويلة قد تغير كل شيء!
تقدم الدراسة الجديدة تحقيقًا مثيرًا حول تأثير الموقع في أداء نماذج الذكاء الاصطناعي، حيث تكشف عن نقاط ضعف خطيرة قد تؤثر على دقة النتائج. تعرف على كيف تؤثر هذه الأخطاء على قدرتها على الاستدلال في سياقات طويلة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
