هل تساءلت يومًا عما إذا كانت [نماذج اللغة](/tag/[نماذج](/tag/نماذج)-[اللغة](/tag/اللغة)) (Language [Models](/tag/models)) يمكن أن تحسن أدائها في [التفكير](/tag/التفكير) دون الحاجة إلى [مكافآت](/tag/مكافآت) خارجية؟ هذا ما أثبتته [الأبحاث](/tag/الأبحاث) الأخيرة، حيث قدم [فريق](/tag/فريق) من [الباحثين](/tag/الباحثين) [تقنية](/tag/تقنية) مبتكرة تُعرف باسم [التدريب الذاتي](/tag/[التدريب](/tag/التدريب)-الذاتي) المتطور (Self-evolving Post-Training - SePT).
تعمل هذه [التقنية](/tag/التقنية) بنظام بسيط يخلط بين [التوليد](/tag/التوليد) الذاتي والتدريب على الردود التي تم توليدها بنفس النموذج. ولتوضيح هذا الأمر، يقوم النموذج بتكرار [اقتراح](/tag/اقتراح) أسئلة، ثم يستخدم نفسه لتوليد الردود بناءً على درجة حرارة عشوائية محددة، ومن بعدها يتم [تدريب النموذج](/tag/[تدريب](/tag/تدريب)-النموذج) على هذه [البيانات](/tag/البيانات) المولّدة ذاتيًا. يعني ذلك أن كل دفعة جديدة من [البيانات](/tag/البيانات) يتم إنتاجها بواسطة النموذج نفسه بعد تحديثه، مما يعزز التجدد والتطور في [الأداء](/tag/الأداء).
تظهر النتائج أن [التقنية](/tag/التقنية) SePT تمكنت من [تحسين الأداء](/tag/[تحسين](/tag/تحسين)-[الأداء](/tag/الأداء)) في ستة [اختبارات](/tag/اختبارات) رياضية، محققة تقدمًا ملحوظًا على [نماذج](/tag/نماذج) لم تتلقَ أي [تدريب مسبق](/tag/[تدريب](/tag/تدريب)-مسبق). وهذه النتائج تدلل على أهمية آلية تجديد [البيانات](/tag/البيانات) [عبر](/tag/عبر) الإنترنت وديناميكيات درجة الحرارة في بيئات [التدريب](/tag/التدريب). بشكل عام، تقدم هذه [الدراسة](/tag/الدراسة) نهجًا عمليًا حيث يمكن [تحسين](/tag/تحسين) [مهارات](/tag/مهارات) [التفكير](/tag/التفكير) بمساعدة الإشراف المولّد ذاتيًا فقط.
إذا كنت مهتمًا بالتفاصيل التقنية، يمكنك الوصول إلى [الكود](/tag/الكود) الخاص بهذه [التقنية](/tag/التقنية) [عبر](/tag/عبر) [GitHub](https://github.com/ElementQi/SePT). ماذا عنكم، هل تتوقعون أن تغير هذه [التقنية](/tag/التقنية) [مستقبل](/tag/مستقبل) [نماذج الذكاء الاصطناعي](/tag/[نماذج](/tag/نماذج)-الذكاء-الاصطناعي)؟ شاركونا آراءكم في [التعليقات](/tag/التعليقات)!
نموذج يتدرب على نفسه: تحسين الأدوات اللغوية دون مكافآت خارجية!
طوّرت الأبحاث الحديثة نموذجًا يمكنه تعزيز مهاراته في التفكير دون الاعتماد على أي مكافآت خارجية، مستخدمًا أسلوب التدريب الذاتي. هذه التقنية الجديدة قد تحدث ثورة في طريقة تطوير نماذج الذكاء الاصطناعي.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
