في [دراسة](/tag/دراسة) حديثة منشورة في arXiv، يطرح الباحثون فرضية جديدة تتعلق بتوسيع [البيانات](/tag/البيانات) ([Data](/tag/data) Scaling) وكيفية تأثيره على [نماذج الذكاء الاصطناعي](/tag/[نماذج](/tag/نماذج)-الذكاء-الاصطناعي). بدلاً من التركيز فقط على ذيول تواتر الرموز (token-frequency tails)، يشير [البحث](/tag/البحث) إلى أن القوانين المتعلقة بتوسيع [البيانات](/tag/البيانات) تُحكم بواسطة تغطية تدريجية لطيف تشير إلى مساهمة تنبؤية كامنة.
لقد تعمل الباحثون بتمثيل أوتوماتيكي للاقترانات النصية وأكدوا وجود طيف مساهمة تنبؤية عالمي (global-[KL](/tag/kl) predictive contribution spectrum) حيث تساهم كل حالة وفقًا لكتلتها التجريبية ودرجة انحرافها عن قاعدة رمز متوقع عالمي. وعبر [تحليل](/tag/تحليل) 12 [مجموعة بيانات](/tag/مجموعة-[بيانات](/tag/بيانات)) حقيقية، تم العثور على أن ميل ذيل هذا الطيف مرتبط بقوة بمعامل [التوسع](/tag/التوسع) الفعلي للبيانات لنموذج [GPT](/tag/gpt) صغير وثابت.
أضافت [الدراسة](/tag/الدراسة) خطوة أخرى عن طريق تعريف ترتيب [تقليم](/tag/تقليم) فعال (effective truncation rank) لكل حجم [تدريب](/tag/تدريب) N، متطابقًا بين الفقد الزائد الملحوظ والكتلة المتبقية من طيف المساهمة. [البحث](/tag/البحث) يكشف أن اللوغاريتم لترتيب التقليم K قريب من الخطية في اللوغاريتم لحجم [التدريب](/tag/التدريب) N، مما يعكس [قوة](/tag/قوة) العلاقة بين هذين العاملين.
هذه النتائج تقدم دعمًا تجريبيًا قويًا لآلية بسيطة: حيث يتقدم حجم [التدريب](/tag/التدريب) إلى حدود فعالة [عبر](/tag/عبر) طيف حالة تنبؤية، وتتناسب الكتلة المتبقية من هذا الطيف مع الفقد الزائد المتبقي. هذا الاكتشاف يدعو للبحث المستمر في [فهم](/tag/فهم) كيف يمكن [تحسين](/tag/تحسين) [نماذج الذكاء الاصطناعي](/tag/[نماذج](/tag/نماذج)-الذكاء-الاصطناعي) ليكون لها [أداء](/tag/أداء) أكبر مع [توسيع البيانات](/tag/توسيع-[البيانات](/tag/البيانات)).
تحليل مدهش: كيف يُغير توسيع البيانات مشهد تعلم الذكاء الاصطناعي؟
دراسة جديدة تسلط الضوء على القوانين المتعلقة بتوسيع البيانات وأثرها على نماذج الذكاء الاصطناعي. البحث يكشف كيف يمكن أن تكون قوانين التوسع متعددة الأبعاد.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
