في عالم الذكاء الاصطناعي، تشكل نماذج اللغة الكبيرة (Large Language Models - LLMs) محوراً رئيسياً في الأبحاث الحديثة. لكن القوانين الحالية للتوسع في هذه النماذج، والتي تعتمد بشكل رئيسي على قوانين القوة الأحادية، تُظهر نقصاً واضحاً في تفسير الظواهر غير المتوقعة مثل الانخفاض الكارثي في الأداء وتقليل الجودة الناتج عن التكميم. لذلك، قدم الباحثون قانون شانون كحل مبتكر يُعيد تعريف كيفية النظر إلى تدريب هذه النماذج كعملية نقل معلومات على قناة مشوشة، استناداً إلى نظرية شانون-هارتلي.

هذا الإطار الجديد يربط بين معلمات النموذج وعرض النطاق الترددي للقناة، بينما يُمثل وحدات التدريب بمدى إشارة معينة. من خلال هذا التحليل، تبين أن هناك سعة أساسية وفقاً لقانون شانون، حيث أن زيادة حجم النموذج أو كمية البيانات دون الحفاظ على نسبة إشارة إلى ضوضاء (SNR) كافية ستؤدي إلى تضخيم الضوضاء، مما يُحدث تحولاً من تحسين أحادي الاتجاه إلى تدهور الأداء بشكل غير متوقع.

تم التحقق من صحة هذا الإطار من خلال تجارب أجريت على نموذجين، Pythia وOLMo2، تحت تأثيرات مختلفة مثل الضوضاء Gaussian، بالإضافة إلى الضبط الدقيق تحت إشراف على مهام الحساب والأسئلة والأجوبة والكود. أظهرت النتائج أن قانون شانون يفوق القوانين التقليدية الحالية، محققاً نتائج رائعة في درجات $R^2$ والتقاط آبار الفقد المفقودة في الأساليب السابقة.

الأكثر إثارة هو أن القانون يمكنه التنبؤ بأداء النماذج غير المعروفة. تم ملاءمته على نماذج Pythia بمعدل 6.9 مليار معلمة مع 180 مليار وحدة تدريب، والتنبؤ بأداء النموذج غير المرئي المكون من 12 مليار معلمة حتى 307 مليار وحدة تدريب، مع درجة توافق $R^2$ تصل إلى 0.847.

بهذه الابتكارات، يبدو أننا نخطو خطوة كبيرة نحو فهم أفضل لعمق تعقيد نماذج اللغة الكبيرة. هل نحن جاهزون لاستكشاف المزيد من هذه التحديات والتطورات الجديدة في الذكاء الاصطناعي؟ شاركونا آراءكم في التعليقات!