في خطوة متقدمة [نحو](/tag/نحو) [تحسين أداء](/tag/[تحسين](/tag/تحسين)-[أداء](/tag/أداء)) [نماذج [اللغات](/tag/اللغات) الضخمة](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)-الضخمة) (Large Language [Models](/tag/models))، قدم الباحثون [تقنية](/tag/تقنية) مبتكرة تُعرف بـ"توزيع [المكافآت](/tag/المكافآت) الواعي" (Distribution-Aware Reward). هذه [التقنية](/tag/التقنية) تهدف إلى تعزيز قدرتها على [التنبؤ](/tag/التنبؤ) بالقيم الحقيقية من مدخلات متنوعة، مثل النصوص، الأكواد، والسلاسل الجزيئية.
عادةً، تعتمد معظم الأهداف التدريبية على [تقييم](/tag/تقييم) كل [عدد](/tag/عدد) عائم بشكل مستقل، مما يحسن من تقديرات النقاط دون ضمان توزيع [توقعات](/tag/توقعات) مُعيرة، وهو ما يقلل من القدرة على تطبيق [تقنيات](/tag/تقنيات) تتطلب [تصنيف](/tag/تصنيف) المرشحين أو تقدير [عدم اليقين](/tag/عدم-اليقين).
تسعى طريقة "توزيع [المكافآت](/tag/المكافآت) الواعي" إلى معالجة هذا القصور من خلال [تدريب](/tag/تدريب) [نماذج اللغة](/tag/[نماذج](/tag/نماذج)-[اللغة](/tag/اللغة)) لتوليد [توزيعات](/tag/توزيعات) متوقعة أفضل في مهام الانحدار، بدلاً من مجرد [تحسين](/tag/تحسين) المخرجات المفردة مقابل الأهداف العددية. في هذه الطريقة، تُعتبر العينات المتعددة المُنتجة من [نماذج اللغة](/tag/[نماذج](/tag/نماذج)-[اللغة](/tag/اللغة)) توزيعًا تخيليًا تجريبيًا، حيث يتم تقييمها باستخدام مؤشر الدرجات المستمرة المصنفة (Continuous Ranked Probability Score)، وتوزع [المكافآت](/tag/المكافآت) بناءً على الإسهام الهام لكل جولة في جودة التوزيع.
لقد تم [تقييم](/tag/تقييم) هذه [التقنية](/tag/التقنية) على مهام متعددة مثل [نموذج](/tag/نموذج) منفصل لجداول غاوسي، وتنبؤ [أداء](/tag/أداء) الأكواد، وتنبؤ الخصائص الجزيئية من سلاسل SMILES. وُجد أن طريقتنا تُظهر تحسناً ملحوظًا على [أساليب](/tag/أساليب) [التدريب](/tag/التدريب) الخاضع للإشراف، مما يعزز من قدرتها على [تصنيف النتائج](/tag/[تصنيف](/tag/تصنيف)-النتائج) بشكل أفضل، مع [تحقيق](/tag/تحقيق) تقدم ملحوظ يبلغ 6 نقاط في مقياس سبيرمان (Spearman) على [مجموعة بيانات](/tag/مجموعة-[بيانات](/tag/بيانات)) KBSS.
عند تطبيقها على MoleculeNet باستخدام مجرد سلاسل SMILES، أظهرت الطريقة تنافسية قوية مع [نماذج](/tag/نماذج) الجزيئات المعتمدة على [الرسوم البيانية](/tag/الرسوم-البيانية) والنماذج الجزيئية ثلاثية الأبعاد، مما يُشير إلى فعالية عالية. تشير التحليلات الإضافية إلى أن هذه [التقنية](/tag/التقنية) تساهم في تقليل مشكلة انهيار تنويع العروض وتحسين [تشخيص](/tag/تشخيص) عدم اليقين، مما يعكس أن [تحسين](/tag/تحسين) [توزيعات](/tag/توزيعات) [التوقعات](/tag/التوقعات) مباشرةً يجعل [النماذج اللغوية](/tag/[النماذج](/tag/النماذج)-اللغوية) أكثر [قوة](/tag/قوة) ودقة في [التنبؤ](/tag/التنبؤ).
ثورة في الذكاء الاصطناعي: تحسين توزيع المكافآت في التعلم المعزز لنماذج اللغات الضخمة
استعرض الباحثون تقنية جديدة تعرف بإعادة توزيع المكافآت في التعلم المعزز، والتي تعزز أداء نماذج اللغات الضخمة في التنبؤات. تعزز هذه الطريقة تحسين توزيع التوقعات بشكل يسمح بإصدار تنبؤات أكثر دقة وجاهزية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
