في دراسة حديثة، تم تتبع مسارات تطوير دوائر الانتباه (Attention Circuits) عبر ثلاثة نماذج لغوية ضخمة (1B-class) تنتمي لعائلتين معماريتين: المحولات الكثيفة (Dense Transformer) ونموذج الخلط من الخبراء (Mixture of Experts). تعتمد الدراسة على نماذج مثل Pythia 1B وOLMo 1B-0724-hf وOLMoE 1B-7B-0924، بالإضافة إلى مجموعتين من البيانات المستخدمة في التدريب (The Pile وDCLM).
خلال عشرة مراحل متباينة لكل نموذج - بواقع ثلاثين تجربة تفسير ميكانيكي - تم استخدام معدلات المشاركة (Participation Ratio) وأدوات الغرض الخاص بتحديد القدرات لمتابعة الرأس المحدد (Heads) مع تطور دوائر الانتباه.
وتوصلت الدراسة إلى خمس نتائج رئيسية:
1. النماذج من الطبقات 0 و 1 لا تنتج أي رؤوس مصنفة ضمن مستوى BOS في أي مرحلة، مما يشير إلى أن هذه الحقيقة هي خاصية معمارية وليست نتيجة مكتسبة.
2. تجمع النسبة الكلية لرؤوس BOS ثلاثة أشكال مختلفة للنشوء: زيادة تدريجية في Pythia 1B، انتقال حاد في OLMo 1B (من 7% إلى 70% بين مراحل متجاورة)، وزيادة تدريجية في OLMoE 1B-7B.
3. في نماذج DCLM، يتفوق تشكيل دوائر الاستدلال على تشكيل الجذب BOS بمقدار يتراوح بين 10 إلى 20 مرة في التوكنز (Tokens)؛ ما يعني أن تشكيل دوائر الأداء ودوائر الانتباه هما مرحلتان منفصلتان.
4. يتقارب الفحص الخاص بالقدرات إلى دائرة الاستدلال النهائية خلال 0.3% إلى 2% من إجمالي توكنز التدريب، مما يعني أنه لا حاجة للنموذج النهائي لتحديد الدوائر.
5. بالنسبة لكل رأس استدلالي أخير تم سحبه عبر النماذج الثلاثة، يرتفع معدل المشاركة عند أو قبل أول مرحلة يتم فيها تجاوز رأس تلك القدرة.-
تساعد هذه النتائج في تحسين فهمنا للانتقال بين مرحلتي الاستدلال والانتباه، موضحةً أن الاختلافات النوعية والكمية تعني أن هذه العمليات تحتاج إلى فهم أعمق وتفصيل أكبر.
متى تتشكل دوائر الانتباه؟ اكتشفوا مسارات التطور في نماذج الذكاء الاصطناعي!
تتناول دراسة جديدة مسارات تطور دوائر الانتباه في نماذج لغوية برموز تصل إلى مليار. النتائج تكشف عن أنماط فريدة لتشكل دوائر الانتباه وقدراتها في نماذج مختلفة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
