في عالم الذكاء الاصطناعي، يُعتبر فهم كيفية عمل نماذج اللغة الصغيرة (Small Language Models) في العمليات الحسابية موضوعًا مثيرًا للبحث والدراسة. تشير نتائج الدراسة الحديثة حول "اختصار قراءة النتائج" (The Readout Shortcut) إلى أن تحفيز سلسلة الأفكار (Chain-of-Thought - CoT) ضروري لأداء الحسابات، لكنه يترك مجالاً كبيراً للتساؤلات حول دور التسلسل المنطقي.
عبر تحليل عميق لثلاثة نماذج لغوية ذات حجم يتراوح بين 1-3 مليار تعليمات، تم تسليط الضوء على مرحلة قراءة الإجابة باستخدام استكمال البادئات (prefix completion). وجد الباحثون أن هناك اختصارًا موقعيًا: حيث يقوم النموذج بنسخ الرقم الذي يشغل الوضع الختامي قبل فاصل الإجابة، دون الاعتماد على الأسباب الوسيطة.
تُظهر النتائج أن وجود إجابات صحيحة يساهم في دقة تتراوح بين 54-92 نقطة مئوية، وهو ما يمثل 89-92% من الحد الأقصى لدقة النموذج، حتى في الحالات الخاطئة، توافق الإجابة النهائية الرقم الأخير من سلسلة الأفكار بنسبة تصل إلى 95-96% من الوقت.
تشير البيانات إلى أن قناة النسخ تتفوق على استكمال السياق المحتفظ به، مما يعني أن استبدال الرقم النهائي برقم خاطئ يؤدي إلى انهيار الدقة تقريبًا إلى الصفر، بالرغم من وجود نتائج صحيحة في المراحل الوسيطة. وعندما يتم إزالة الرقم، يتم استرداد 5-32 نقطة مئوية فوق ذلك الحد الأدنى.
علاوة على ذلك، يتخطى نموذج Qwen ونموذج Llama المشتتات الجديدة بنسبة 87-95%، بينما يظهر نموذج Gemma تحكمًا انتقائيًا. من خلال تقييمات لمجموعات معمارية محددة، تم استنتاج أن التأثير يمكن أن يتكرر على نماذج GSM-Symbolic.
بالنظر إلى الأنشطة غير الحسابية، تنخفض الاحتفاظ بالتسلسل بشكل حاد، ومع زيادة حجم النموذج إلى 7-8 مليار، يظهر تحكم انتقائي في المحتوى.
تسلط هذه الدراسة الضوء على ظاهرة مثيرة للاهتمام تتعلق بكيفية دمج معالجة المعلومات المكانية مع الحسابات الحقيقية، مما يشير إلى نقطة فشل محتملة عند الاعتماد على الإشراف القائم على CoT. هل نعتبر هذه النتائج تطورًا في مجال الذكاء الاصطناعي؟ ما رأيكم في هذا الاكتشاف المذهل؟ شاركونا في التعليقات.
اختصار قراءة النتائج: كيف يسيطر نسخ الأرقام على الحسابات في نماذج اللغة الصغيرة؟
يستعرض البحث تأثير اختصار النسخ على دقة النماذج اللغوية في عمليات الحساب، موضحًا كيف يمكن للنسخ من الأرقام أن يؤدي إلى تحسين كبير في النتائج. تم اكتشاف أن عملية النسخ تلعب دورًا أكثر أهمية مما كان يُعتقد سابقًا في عملية استرجاع الإجابات.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
