في عالم الذكاء الاصطناعي المتنامي، يمثل التكيف منخفض الرتبة (Low-rank adaptation) أحد الاتجاهات الرائدة في تحسين أداء نماذج اللغة الكبيرة. لكن القليل من الدراسات تناولت فعالية وكيفية إعداد هذه النماذج في ظل التعلم المعزز مع المكافآت القابلة للتحقق (Reinforcement Learning with Verifiable Rewards).
قدمت الدراسات السابقة بعض الأساليب الجديدة مثل PiSSA وMiLoRA، ولكنها أظهرت أداءً أقل من المتوقع في بيئة التعلم المعزز، مما أثار تساؤلات حول كيفية إعداد المصفوفات ذات الرتبة المنخفضة.
في هذا العمل، قدم فريق من الباحثين تحليلًا نظريًا يوضح كيف أن الإعداد القائم على الهندسة يمكن أن يحقق أقل فرق بين نتائج LoRA وتلك الناتجة عن التعديل الكامل للمعلمات. هذه الرؤية الجديدة أدت إلى تطوير طريقة جديدة تحمل اسم "الإعداد القائم على الهندسة"، مما أفضى إلى ابتكار نسختين جديدتين هما RLPO وRLMO.
أظهرت التجارب على معايير التفكير الرياضي أن الإعداد الجديد يساهم في استقرار التدريب في بيئة التعلم المعزز، ويتفوق على النماذج التقليدية، مع كون نتائج PiSSA وMiLoRA أقل فعالية. كما يعزز التحليل الموحد لفهم الأسباب وراء ضعف أداء PiSSA وMiLoRA في بيئة التعلم المعزز.
للمتعلمين والمطورين المهتمين، تم نشر الكود والنقاط المرجعية لمزيد من الاستفادة عبر GitHub [رابط_المقال].
تحسين دقيق للمعلمات: الابتكار الجديد في إعداد نماذج التعلم المعزز!
طور الباحثون طريقة جديدة لتحسين نماذج تعلم الآلة باستخدام إعدادات هندسية جديدة. هذه التقنيات المبتكرة تحقق استقرارًا أفضل وأداءً أعلى مقارنةً بالنماذج التقليدية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
