في عالم الذكاء الاصطناعي، تمثل النماذج اللغوية الكبيرة (Large Language Models) عموداً أساسياً في تطوير تقنيات حديثة تؤثر على كل جانب من جوانب حياتنا، من التواصل الشخصي إلى الأعمال التجارية. في هذا الإطار المبتكر، تم تقديم تقنية جديدة تعرف باسم ASymPO (Asymmetric-Scale Policy Optimization) التي تهدف إلى تحسين عمليات ما بعد التدريب للنماذج اللغوية من خلال استخدام تقنيات التعلم المعزز غير المتزامن.

تتيح هذه التقنية فصل عملية توليد الاستجابات عن تحسين السياسات، مما يزيد من سرعة العملية ويقلل من التأثير السلبي المترتب على الاستجابات القديمة. رغم ذلك، تُشكل الاستجابات القديمة تحديًا حيث يمكن أن تؤدي إلى انحراف في التوزيع. تقليديًا، يتم التحكم في هذا الانحراف باستخدام احتمالات سلوك السياسة، أو من خلال حسابات دقيقة تحتاج إلى توافق تام بين الأنظمة المتواجدة.

لكن الباحثين تساءلوا عما إذا كان بالإمكان استخدام تقنيات التعلم المعزز غير المتزامن الخاصة بالمجموعة لتثبيت الأداء باستخدام احتمالات السياسات الحالية فقط. وبعد البحث، اكتشفوا حالة فشل في التوازن عند تقييم الاستجابات القديمة تحت السياسة الحالية، حيث يمكن أن تظهر المصطلحات الإيجابية والسلبية عند مقاييس مختلفة، مما يؤدي إلى نتائج غير متوازنة.

لحل هذه المشكلة، قدمت تقنية ASymPO نهجًا يعمل على تطبيع فقدان الرموز لكل استجابة حسب متوسط السجل السلبي الحالي، وبالتالي يتم تحقيق توازن في النتائج دون الحاجة إلى احتمالات سياسية سلوكية. ونتيجة لذلك، يتم استعادة توازن بحيث تكون الإشارات التعليمية غير صفرية.

علاوة على ذلك، قدم الباحثون تقنية جديدة تُعرف باسم Scaled Policy Optimization (SPO) كنموذج معياري للفحص، حيث تم تقييم الأدوات الهامة في عمليات ما بعد التدريب على مهارات التفكير الرياضي غير المتزامن.

إن هذه التقنية ليست مجرد تقدم تقني، بل توفر أيضًا رؤية جديدة لمستقبل تطوير نماذج اللغة وتحسين أدائها. ماذا تعتقدون حول هذه التطورات؟ كيف يمكن أن تؤثر على استخدامات الذكاء الاصطناعي في حياتنا اليومية؟ شاركونا آراءكم في التعليقات!