في عالم الذكاء الاصطناعي، يعتبر التعلم التعزيزي القابل للتحقق من المكافآت (RLVR) واحدًا من أبرز الاتجاهات المستخدمة لتحسين نماذج التفكير واسعة النطاق. تُظهر RLVR أنماط تحسين فريدة تتطلب اهتمامًا خاصًا للحفاظ على الهياكل الهندسية المدربة مسبقًا.
لكن، ما هي التحديات التي تواجه الطرق الحالية؟ استنادًا إلى طرق التكيف ذات الرتبة المنخفضة (Low-Rank Adaptation) مثل PiSSA، نجد أن هذه الطرق غالبًا ما تُستخدم في تحسين المدخلات المتحدة تحت إشراف (Supervised Fine-Tuning - SFT) ولا تتناسب مع خصائص RLVR المميزة.
التحسين المباشر للمساحة الفرعية غير الهيكلية المفضلة من قبل RLVR يواجه أيضًا عقبات في الكفاءة على الأجهزة الحديثة.
في هذا السياق، تقدم GeoRA (التكيف ذي الرتبة المنخفضة الواعي بالهندسة) كحل مبتكر. تعتمد GeoRA على استغلال الهيكل قبل التحديثات، حيث تقوم بتحليل الاتجاهات الرئيسية باستخدام تحليل القيمة المفردة (Singular Value Decomposition - SVD) لإنشاء المحولات ذات الرتبة المنخفضة، مع تجميد المكونات المتبقية كمرساة هيكلية خلال التدريب. هذه الطريقة لا تحفظ فقط الهيكل المدرب مسبقًا ولكنها تمكّن أيضًا من حسابات كثيفة فعالة.
أظهرت التجارب التي أُجريت على نماذج Qwen وLlama، والتي تتراوح بين 1.5B إلى 32B من المعلمات، أن GeoRA تتفوق باستمرار على الأسس المنخفضة الرتبة القوية عبر إعدادات RLVR في مجالات الرياضيات والطب والترميز. بالإضافة إلى ذلك، أثبتت أنها تحقق تعميمًا أقوى وتقلل من الفقد في المهام خارج المجال.
تجهز هذه التطورات المبتكرة الساحة لمزيد من الابتكارات في تحسين النماذج الذكية، مما يدعونا للتفكير في آفاق جديدة في هذا المجال. ما هي رؤيتكم لمستقبل التعلم التعزيزي؟ شاركونا آرائكم في التعليقات.
GeoRA: ثورة في تحسين التعلم التعزيزي القابل للتحقق من المكافآت
تمثل GeoRA تطورًا هائلًا في مجال التعلم التعزيزي، حيث تقدم طريقة مبتكرة للتكيف مع الهيكل الهندسي لتحسين أداء النماذج. تتجاوز GeoRA القيود الموجودة في الطرق التقليدية وتحقق نتائج مبهرة في مجالات عدة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
