تعتبر مشاكل التعديل خارج السياسة (Off-Policy) مثل تدهور السياسات وعدم التوافق بين التدريب والاستدلال من العقبات الكبيرة التي تواجه تدريب نماذج اللغات الكبيرة (Large Language Models) وتقنيات التعلم المعزز (Reinforcement Learning). ينشأ تباين كبير بين توزيعات السياسات المعتمدة على الاستدلال والتحديثات الحالية، مما يؤدي إلى زيادة في النسب الهامة وتضخيم التدرجات، وقد يدفع ذلك التحديثات إلى خارج مناطق الثقة.

للتغلب على هذه التحديات، تم اقتراح تقنية جديدة تُعرف باسم التعديل الت كيفي (Adaptive Layerwise Perturbation - ALP). هذه التقنية تعتمد على إدخال اضطرابات صغيرة قابلة للتعلم في حالات الإدخال المخفية لكل طبقة أثناء التحديثات. تُستخدم هذه السياسة المُعدلة لتكون البسط في النسبة الهامة مقارنة بالسياسة الثابتة للاستدلال.

بشكل بديهي، يساعد إضافة ضوضاء مُتحكم بها إلى التمثيلات الوسيطة على منع انحراف السياسة المحدثة بشكل حاد عن سياسة الاستدلال. وبالتالي، توسع ALP عائلة السياسات لتغطية الضوضاء الناتجة عن عدم التطابق في أثناء الاستدلال. مما يؤدي إلى تقليص الفجوة بين السياسات المحدثة والاستدلال، وتقليل مؤشرات النسب المهمة، وبالتالي الحفاظ على استقرار التدريب.

تظهر التجارب التي أُجريت على مهام حسابية ذات دور واحد ومهام تحليلات متعددة الأدوار أن ALP لا تحسن الأداء النهائي فقط، بل تمنع أيضًا انفجارات في ذيول النسب الهامة والارتفاعات المفاجئة خلال التدريب التكراري، مع تعزيز فرص الاستكشاف. وقد أظهرت التحليلات أن التعديلات على مستوى التمثيل عبر جميع الطبقات هي الأكثر فعالية، حيث تفوقت بشكل كبير على المتغيرات الجزئية.

في ظل هذه التطورات، يبدو أن تقنية التعديل الت كيفي تعد خطوة واعدة نحو تحسين الأداء والاستقرار في نماذج اللغات الكبيرة. ما رأيكم في هذه الابتكارات؟ شاركونا في التعليقات.