تعتبر نماذج اللغات الكبيرة (Large Language Models) مثل BERT وGPT-2 من أهم الابتكارات في مجال الذكاء الاصطناعي، حيث تعتمد بشكل أساسي على نظام الانتباه المتعدد (multihead attention). ومع ذلك، لا تزال التفاعلات بين هذه الرؤوس غير مفهومة تمامًا. في دراسة حديثة، تم تطبيق مبدأ الطاقة الحرة النظرية للألعاب (Game Theoretic Free Energy Principle - GTFEP) لتحليل هذه الرؤوس كعملاء عقلانيين محدودي القدرات.
يقوم مبدأ GTFEP بإعادة صياغة الأنظمة المتعددة كأنظمة للاستدلال التوزيعي، حيث يهدف كل رأس إلى تقليل طاقته الحرة التباينية. من خلال هذه الدراسة، تُظهر النتائج أن سلوك الرؤوس يصنف ضمن توزيع جيبس في هياكل التحالفات، مع تفكيك الطاقة إلى توزيعات هارساني.
تُعتبر التحليلات المثارة من خلال تقريبات قابلة للتطبيق، مثل الافتراضات الثابتة والديناميات الحتمية، تحليلًا مثيرًا للانتباه. تكشف النتائج أن المساهمات الغير فعالة من بعض الرؤوس يمكن تقليلها مع المحافظة على الأداء، مما يؤدي إلى تخفيض التكاليف الحسابية. على سبيل المثال، إن تقليل 20% من الرؤوس في نموذج GPT-2 يقلل من FLOPs بنسبة 18% ويزيد من سرعة المعالجة بنسبة 22%، مع تأثير طفيف فقط على التعقيد (perplexity).
تقدم هذه الدراسة أسسًا قوية لتحليل وتحسين هياكل المحولات (transformer architectures) في الذكاء الاصطناعي، مما يعزز من فعالية هذه النماذج في المهام اللغوية المعقدة.
تحليل طاقة حرارية الألعاب الذكية في أنظمة الانتباه بالذكاء الاصطناعي: اكتشاف شفرات الأدمغة في نماذج اللغات الكبيرة
تقدم دراسة جديدة تحليلًا مثيرًا حول كيفية تفاعل رؤوس الانتباه في نماذج اللغات الكبيرة، كـ BERT وGPT-2، باستخدام نظرية الألعاب. تُظهر النتائج إمكانية تقليل تكلفة الحوسبة مع الحفاظ على الأداء من خلال تحييد العناصر غير الفعالة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
