في تطور مثير في مجال الذكاء الاصطناعي، قامت دراسة حديثة بتقييم القدرات الاسترجاعية والتفكير متعدد الخطوات لأحدث نماذج اللغات الضخمة (Large Language Models) التي تتمتع بقدرة على التعامل مع سياقات نصية تصل إلى 1 مليون رمز. تم استخدام مجموعة من النصوص الصينية الكلاسيكية لإجراء هذا التقييم.
احتوت الدراسة على اختبارين منفصلين. الأول، "اختبار 1"، كان يركز على استرجاع المعلومات بدقة من نص يفوق 1 مليون رمز من المدخلات، حيث تم إضافة ثلاثة عناصر سيرة ذاتية في أعماق مختلفة مع نسخ حقيقية وبديلة. الهدف كان تحديد ما إذا كانت النماذج تعتمد على استرجاع حقيقي من النصوص أو على ذاكرة البيانات التدريبية.
أما "اختبار 2"، فقد صُمم للتحقق من تدهور القدرة على التفكير متعدد الخطوات عند الحاجة للاسترجاع، حيث تم قياس أداء النماذج من خلال تحليل السلاسل الممتدة على ثلاثة مستويات من السياق (256K، 512K، و1M رمز). النتائج أظهرت أن عملية استرجاع المعلومات بدقة عند 1M رمز قد حُلت تقريبًا للنماذج الأبرز مثل Gemini 3.1 Pro وClaude Opus 4.7 وGPT-5.5 حيث حققت كل منها نسبة دقة 100%.
فيما يتعلق بالأداء في التفكير متعدد الخطوات، تم الكشف عن ثلاثة أنماط متميزة من التدهور في الدقة:
1. نمط الاستقرار (Gemini Pro وClaude) الذي حافظ على دقة تزيد عن 80% حتى 512K مع تدهور طفيف عند 1M.
2. نمط الانخفاض المفاجئ (GPT-5.5 وQwen3.6-plus) الذي سقط بشكل حاد بين 512K و1M.
3. نمط الانخفاض السلس (DeepSeek V4 Pro) الذي أظهر تدهورًا تدريجيًا عبر جميع المدى.
تشير النتائج إلى أن طول نافذة السياق الاسمي هو مؤشر ضعيف للقدرة الفعلية على الاسترجاع الفعال والتفكير متعدد الخطوات، وأن الانتقال من 512K إلى 1M يمثل نقطة تمييز حادة بين النماذج الرائدة في هذا المجال.
استكشاف إمكانيات الاسترجاع والتفكير متعدد الخطوات في نماذج اللغات الضخمة: تقييم أداء 1M-token في النصوص الصينية الكلاسيكية
تكشف دراسة حديثة عن أداء خمسة نماذج لغوية ضخمة في سياقات نصية تضم 1 مليون رمز. النتائج تظهر تفوق نماذج معينة في الاسترجاع، لكن الأداء يتفاوت في التفكير متعدد الخطوات.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
