أصبح تحسين أداء نماذج اللغات الضخمة (LLMs) أحد أبرز التحديات في عالم الذكاء الاصطناعي، وخاصة مع التزايد المستمر في عدد المعلمات وحجم بيانات التدريب. ورغم النجاحات الكبيرة، يظل كفاءة الاستدلال قضية هامة لم تُستكشف بما يكفي حتى الآن. في دراستهم الأخيرة، قام الباحثون باستكشاف التأثيرات المعمارية الأساسية على تكاليف الاستدلال ودقة النماذج.

تتناول الدراسة الجديدة القوانين المتوسعة وتدمجها مع معلومات حول البنية، حيث يركز الباحثون على عوامل مثل حجم الطبقات الخفية، ونسبة توزيع المعلمات بين نموذج التنبيه متعدد الطبقات (MLP) والانتباه، وكذلك تقنية الانتباه المجمعة (GQA). يساهم هذا الدمج في تقديم قانون توسيع شرطي يُحسن من أداء المعمارية، مما يسمح بتحديد التصميمات المعمارية التي تحقق أكبر كفاءة استدلال.

تجربة الباحثين تضمنت تدريب أكثر من 200 نموذج، تتراوح أعداد المعلمات بينها 80 مليون إلى 3 مليارات، مما أدى إلى تحسينات ملحوظة في الأداء. النتائج تشير إلى أن النماذج الناتجة عن تطبيق القانون الجديد تتفوق على المعايير المتوفرة حالياً، حيث يمكن للنماذج المحسنة الحصول على دقة أعلى بنسبة تصل إلى 2.1% وزيادة في سرعة الاستدلال بنسبة 42% مقارنةً بنموذج LLaMA-3.2.

إن هذا البحث يقدم بصيص أمل جديد في تطوير نماذج لغوية فعّالة ومطورة تضمن أداءً مرتفعًا دون تكاليف باهظة على مستوى الاستدلال، مما يفتح المجال لاستكشافات جديدة في هذا المجال المثير. كيف ترون مستقبل نماذج اللغات الضخمة بعد هذه الاكتشافات؟ شاركونا آراءكم في التعليقات!