في عالم الذكاء الاصطناعي المتسارع، يبقى التطور في نماذج اللغات الضخمة (Large Language Models) حجر الزاوية لابتكارات جديدة. ومع ذلك، تواجه هذه النماذج تحديات جسيمة تتعلق بجودة البيانات الاصطناعية وتأثيرها على نتائج التدريب.
في دراسة حديثة، تم تقديم أسلوب مبتكر يسمى Team-based self-Play with dual Adaptive Weighting (TPAW)، والذي يسعى إلى تحسين محاذاة النماذج في بيئة تعليمية ذاتية بالكامل. يتميز هذا الأسلوب بإطار عمل يعتمد على التعاون والتنافس بين النماذج، حيث يتفاعل النموذج الحالي مع نقاط التفتيش التاريخية بطريقة تعزز من استقرار وكفاءة عملية المحاكاة.
هذا النظام يضيف أيضًا آليتين وزنيتين متكيفتين؛ الأولى هي آلية إعادة وزن الاستجابات، مما يسمح بتعديل أهمية الاستجابات المستهدفة، والثانية تركز على تعديل مساهمة كل عضو من أعضاء الفريق خلال التدريب بطريقة ديناميكية.
عند بدء التشغيل من نموذج التدريب الذاتي المُنقح (SFT)، يقوم TPAW بتحسين المحاذاة بشكل تدريجي دون الحاجة إلى إشراف إضافي من الإنسان. وقد أظهرت النتائج التجريبية التي تم الحصول عليها من استخدام هذا الأسلوب أنه يتفوق باستمرار على نماذج القياس الأخرى عبر نماذج أساسية متعددة ومعايير تقييم مختلفة.
هذه النتائج المشجعة تفتح آفاقًا جديدة في مجال التعلم الذاتي، مما يعزز من قدرة الذكاء الاصطناعي في فهم ومعالجة المعلومات بشكل أكثر فعالية. للاطلاع على الكود الكامل، يمكنكم زيارة [GitHub](https://github.com/lab-klc/TPAW).
ابتكار طريقة جديدة لتحسين نماذج اللغات الضخمة عبر فريق التدرب الذاتي بآليات وزن مزدوجة!
تقدم دراسة جديدة أسلوب TPAW لتحسين نماذج اللغات الضخمة (LLMs) بشكل ذاتي يساعد في التغلب على القيود الحالية المتعلقة بجودة البيانات الاصطناعية. يعتمد هذا الأسلوب على تعاون وتنافس النماذج لتحقيق نتائج أفضل.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
