شهد مجال الذكاء الاصطناعي تحولاً كبيراً في كيفية تدريب نماذج اللغة الكبيرة (Large Language Models)، حيث انتقل التركيز من تقنيات الإشراف الكاملة إلى نماذج تدريب أكثر انتقائية. وفي هذا السياق، قدمت دراسة جديدة تقنية FiRe-OPD، والتي تعني "فلترة، ثم إعادة وزن" (Filter, then Reweight)، لتعيد رسم حدود تحسين النماذج.
تركز FiRe-OPD على كيفية اختيار المسارات (Trajectories) الأكثر فائدة للتعلم، بالإضافة إلى تحديد الرموز (Tokens) التي تحمل المعلومات الأكثر أهمية. تتضمن هذه الطريقة عملية مزدوجة، حيث تبدأ بفلترة المسارات لإزالة العينات ذات الجودة المنخفضة، ثم يتم تطبيق عملية إعادة وزن ناعمة (Soft Reweighting) على المسارات المحتفظ بها لتسليط الضوء على الرموز المفيدة.
بالمقارنة مع أساليب اختيار الرموز الصارمة، توفر FiRe-OPD آلية إعادة وزن مرنة تساعد على تقليل فقدان المعلومات وتعزيز استقرار عملية التحسين، مما يتيح تحقيق تحسين أدق لنماذج التعلم.
تمت تجربة تقنية FiRe-OPD في إعدادات متعددة المعلمين (Multi-Teacher) والتقييمات القوية إلى الضعيفة (Strong-to-Weak)، وأظهرت نتائج تفوقاً ملحوظاً مقارنةً بأساليب تحسين الرموز على مستوى الرموز (Token-Level OPD)، حيث حققت زيادة بمقدار 6.25 نقطة في معيار AIME 2024 وزيادة بمقدار 18.81 نقطة على معيار Miner.
للاستزادة، يمكن لذوي الاهتمام زيارة رابط الكود على GitHub لاستكشاف كيفية عمل هذه التقنية الجديدة ومساهمتها في تحسين النماذج اللغوية بشكل فعال.
ثورة في التعلم الآلي: إعادة تقييم أساليب تحسين النماذج اللغوية مع FiRe-OPD
ابتكرت دراسة جديدة تقنية FiRe-OPD لتجاوز قيود التعلم التقليدي في نماذج اللغة الكبيرة، عبر تحسين دقيق لعمليات الإشراف على البيانات. تعطي هذه التقنية أولوية للبيانات الأكثر فائدة وتحقق نتائج مذهلة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
