في عالم الذكاء الاصطناعي، يسعى الباحثون دائماً لتطوير [أساليب جديدة](/tag/[أساليب](/tag/أساليب)-جديدة) تعزز من فاعلية [النماذج اللغوية](/tag/[النماذج](/tag/النماذج)-اللغوية) (Language [Models](/tag/models) - LMs) وتساعدها على [فهم](/tag/فهم) واحتساب [عدم اليقين](/tag/عدم-اليقين) في قراراتها. في ورقة بحثية جديدة نشرت على موقع arXiv، تم تقديم نهج مبتكر تحت اسم RLCR ([التعلم التعزيزي](/tag/[التعلم](/tag/التعلم)-التعزيزي) مع [مكافآت](/tag/مكافآت) [المعايرة](/tag/المعايرة)).
لقد أظهرت الدراسات أن [النماذج اللغوية](/tag/[النماذج](/tag/النماذج)-اللغوية) عند تدريبها باستخدام [التعلم التعزيزي](/tag/[التعلم](/tag/التعلم)-التعزيزي) ([Reinforcement Learning](/tag/reinforcement-learning) - RL) القائم على [توليد](/tag/توليد) سلاسل من [التفكير](/tag/التفكير) تعزز أدائها في مجموعة متنوعة من المهام الصعبة في الإجابة عن الأسئلة. ومع ذلك، تكمن المشكلة في أن معظم [تطبيقات](/tag/تطبيقات) RL الناجحة تستخدم دوال [مكافآت](/tag/مكافآت) ثنائية تقيم [دقة](/tag/دقة) مخرجات النموذج، مما يؤدي إلى نتائج غير موثوقة بشكل متزايد.
تتيح طريقة RLCR للنماذج اللغوية ليس فقط توقع الإجابات، بل أيضاً [تقدير الثقة](/tag/تقدير-[الثقة](/tag/الثقة)) بالأجوبة التي تقدمها، مما يساعد في تقليل [الأخطاء](/tag/الأخطاء) وزيادة [موثوقية النتائج](/tag/[موثوقية](/tag/موثوقية)-النتائج). يتم ذلك من خلال تعزيز دالة المكافأة بعدد من المؤشرات، منها مؤشر Brier، والذي يحفز [النماذج](/tag/النماذج) على تقديم تقديرات [ثقة](/tag/ثقة) متوازنة.
أظهرت النتائج أن RLCR لا يحسن من [دقة النماذج](/tag/[دقة](/tag/دقة)-[النماذج](/tag/النماذج)) فحسب، بل يعزز أيضاً من قدرتها على [تقييم](/tag/تقييم) [عدم اليقين](/tag/عدم-اليقين) بشكل أرصن، مما يمهد الطريق لموجهات جديدة في [تطوير الذكاء الاصطناعي](/tag/[تطوير](/tag/تطوير)-الذكاء-الاصطناعي).
يعتبر هذا التطور خطوة هامة [نحو](/tag/نحو) [بناء](/tag/بناء) [نماذج لغوية](/tag/[نماذج](/tag/نماذج)-لغوية) أكثر موثوقية، حيث يفتح المجال أمام المزيد من [التطبيقات](/tag/التطبيقات) [العملية](/tag/العملية) للذكاء الاصطناعي في مجالات متعددة. للمزيد من التفاصيل وللاطلاع على الأكواد والنماذج، يمكنكم زيارة الموقع الرسمي للبحث المذكور.
ثورة جديدة في الذكاء الاصطناعي: تدريب النماذج اللغوية على تقدير عدم اليقين!
تمثل الأساليب الجديدة في تدريب النماذج اللغوية خطوة هامة نحو تحسين دقة استجاباتها، حيث يصبح بإمكانها الآن تقدير مستويات الثقة في قراراتها. هذا التطور يحمل في طياته آفاقاً جديدة لأبحاث الذكاء الاصطناعي!
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
