في [دراسة](/tag/دراسة) حديثة منشورة في arXiv، يطرح الباحثون فرضية جديدة تتعلق بتوسيع [البيانات](/tag/البيانات) ([Data](/tag/data) Scaling) وكيفية تأثيره على [نماذج الذكاء الاصطناعي](/tag/[نماذج](/tag/نماذج)-الذكاء-الاصطناعي). بدلاً من التركيز فقط على ذيول تواتر الرموز (token-frequency tails)، يشير [البحث](/tag/البحث) إلى أن القوانين المتعلقة بتوسيع [البيانات](/tag/البيانات) تُحكم بواسطة تغطية تدريجية لطيف تشير إلى مساهمة تنبؤية كامنة.

لقد تعمل الباحثون بتمثيل أوتوماتيكي للاقترانات النصية وأكدوا وجود طيف مساهمة تنبؤية عالمي (global-[KL](/tag/kl) predictive contribution spectrum) حيث تساهم كل حالة وفقًا لكتلتها التجريبية ودرجة انحرافها عن قاعدة رمز متوقع عالمي. وعبر [تحليل](/tag/تحليل) 12 [مجموعة بيانات](/tag/مجموعة-[بيانات](/tag/بيانات)) حقيقية، تم العثور على أن ميل ذيل هذا الطيف مرتبط بقوة بمعامل [التوسع](/tag/التوسع) الفعلي للبيانات لنموذج [GPT](/tag/gpt) صغير وثابت.

أضافت [الدراسة](/tag/الدراسة) خطوة أخرى عن طريق تعريف ترتيب [تقليم](/tag/تقليم) فعال (effective truncation rank) لكل حجم [تدريب](/tag/تدريب) N، متطابقًا بين الفقد الزائد الملحوظ والكتلة المتبقية من طيف المساهمة. [البحث](/tag/البحث) يكشف أن اللوغاريتم لترتيب التقليم K قريب من الخطية في اللوغاريتم لحجم [التدريب](/tag/التدريب) N، مما يعكس [قوة](/tag/قوة) العلاقة بين هذين العاملين.

هذه النتائج تقدم دعمًا تجريبيًا قويًا لآلية بسيطة: حيث يتقدم حجم [التدريب](/tag/التدريب) إلى حدود فعالة [عبر](/tag/عبر) طيف حالة تنبؤية، وتتناسب الكتلة المتبقية من هذا الطيف مع الفقد الزائد المتبقي. هذا الاكتشاف يدعو للبحث المستمر في [فهم](/tag/فهم) كيف يمكن [تحسين](/tag/تحسين) [نماذج الذكاء الاصطناعي](/tag/[نماذج](/tag/نماذج)-الذكاء-الاصطناعي) ليكون لها [أداء](/tag/أداء) أكبر مع [توسيع البيانات](/tag/توسيع-[البيانات](/tag/البيانات)).