في عالم الذكاء الاصطناعي، تُعتبر النماذج اللغوية الكبيرة (LLMs) واحدة من أكثر التقنيات تقدماً، ولكنها ليست خالية من التحديات. فبالرغم من أنها توفر استجابات دقيقة عند تلقيها تحفيزات تتطابق مع بيانات التدريب، إلا أن أي تحوير بسيط في الأسلوب أو الصياغة يمكن أن يؤدي إلى فشل مفاجئ، خصوصاً في مسائل تتطلب استدلال متعدد الخطوات.
لتجاوز هذه العقبة، تظهر استراتيجية جديدة تعرف بتحسين الرموز بشكل موثوق (DRTO)، التي تجمع بين التعلم المعزز من الملاحظات البشرية (RLHF) مع التحسين المدروس (DRO). تركز هذه الطريقة على تحديد مجموعات الشك بمستويات الفقر المتباين، مما يعزز الأداء خلال تحسين السياسات.
تُظهر بحوثنا أن DRTO تعزز من التناسق والاستجابة تحت التحولات التوزيعية في مجموعة من مهام الاستدلال، حيث تحقق تحسينات ملحوظة تصل إلى 4.4 نقاط مئوية في اختبار MATH-500 و2.7 نقاط مئوية في LiveCodeBench مقارنة بأساليب التحسين القياسية.
تمثل هذه النتائج خطوة مهمة نحو تطوير نماذج ذكاء اصطناعي أكثر موثوقية وقادرة على مواجه التحولات اللغوية المتنوعة، مما يعد بمستقبل واعد للذكاء الاصطناعي في العديد من التطبيقات.
تحسين النماذج اللغوية باستخدام استراتيجيات قوية: التحديات والانتصارات في الذكاء الاصطناعي
تقدم دراسة جديدة مفهوم تحسين الرموز بشكل موثوق (DRTO) لتحسين أداء النماذج اللغوية الكبيرة في مواجهة التحديات اللغوية. من خلال دمج التعلم المعزز من الملاحظات البشرية مع التحسين المدروس، تُظهر هذه الاستراتيجية نتائج ملحوظة في دقة الاستجابة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
