في الآونة الأخيرة، ظهرت ابتكارات جديدة في عالم الذكاء الاصطناعي، وكان أبرزها تقنية GDSD (Guided Denoiser Self-Distillation)، التي تُستخدم لتحسين نماذج اللغة الكبيرة عبر التعلم المعزز (Reinforcement Learning). يعاني التعلم المعزز من صعوبة تحديد احتمالية السياسات في سياق نماذج اللغة الكبيرة، مما يعيق عمليات التعلم. ولكن، تمثل حزمة من الأساليب الفعالة البديل في استخدام حد أدنى من الشواهد (Evidence Lower Bound - ELBO) بدلاً من احتمالية السياسات العادية.
أهمية هذه الأساليب تكمن في توافقها مع إعدادات ما قبل التدريب، لكن استخدام ELBO كبديل يتسبب في انحياز يمكن أن يؤثر سلبًا على الأداء. وهنا يأتي دور تقنية GDSD، التي تسعى إلى تقطير جهاز التصفية الخاص بنماذج اللغة الكبيرة بطريقة مباشرة من معلم ذاتي مدفوع بالمزايا. يتم ذلك من خلال استخدام أسلوب رياضي يعتمد على معيار تنظيم الانحدار القائم على التعلم المعزز.
بفضل GDSD، يتم تقليل الانحياز الناتج عن اختلافات التدريب والاستدلال، مما يساهم في تحسين ديناميات المكافأة أثناء التدريب. وعند تقييمها على معايير متعددة تشمل التخطيط والرياضيات والترميز باستخدام نماذج LLaDA-8B وDream-7B، تظهر تقنية GDSD تفوقًا مستمرًا يتجاوز الأساليب السابقة المعتمدة على ELBO، حيث تحقق تحسينات في دقة الاختبارات تصل إلى 19.6%.
إن هذه الابتكارات لا تفتح فقط آفاقًا جديدة لتحسين نماذج اللغة الكبيرة، بل تشير أيضًا إلى أن التطورات المستقبلية في التعلم المعزز قد تصبح أكثر استقرارًا وفعالية.
إعادة تعريف التعلم المعزز: تقنية GDSD لتحسين نماذج اللغة عبر جهاز تنقية مبتكر!
يقدم البحث مفهوم GDSD الذي يعيد تشكيل طرق التعلم المعزز لتحسين نماذج اللغة الكبيرة بطريقة جديدة ومستقرة. هذا الابتكار يعد بزيادة دقة الاختبارات وتحقيق مكاسب ملحوظة في الأداء.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
