في عالم الذكاء الاصطناعي، حيث تلعب نماذج اللغة الضخمة (Large Language Models) دورًا محوريًا في التفكير والاستدلال، نجد أن الأساليب الجديدة تستمر في الظهور لتحسين فعالية هذه النماذج. من بين هذه الأساليب، يبرز نموذج **DemoPSD**، الذي يمثل ثورة في آلية التعليم الذاتي.
تقليديًا، يتبع التعلم الذاتي على السياسة (On-policy Self-Distillation) منهجية تقوم على أن يعمل نموذج واحد كمعلم وطالب في آن واحد، مما يتيح له التكيف مع مستويات مختلفة من الوصول إلى المعلومات. إلا أن الأبحاث الأخيرة كشفت عن مشاكل جوهرية، مثل **تسرب المعلومات المدفوعة (Privileged Information Leakage)**، حيث يُمكن أن يقوم الطالب بترميز اختصارات تعتمد على الإجابات تكون غير متاحة عند استخدام النموذج في الاختبارات.
تقدم DemoPSD حلًا ذكيًا لهذه التحديات عبر اعتماد مفهوم **انتقاء إرشادات المعلم**. بدلاً من محاولة مطابقة توزيع المعلم بالكامل، توجه DemoPSD الطالب نحو **هدف تجمع الباري سن (Reverse-KL Barycenter Target)**، والذي هو مزيج هندسي موزون بين توزيعي المعلم والطالب، مما يضمن التوازن بين التعلم من المعلم والاحتفاظ بقدرة الطالب على الاستدلال.
وأظهرت التجارب الواسعة على بيانات SciKnowEval من أربعة مجالات علمية أن DemoPSD يتفوق على نماذج مثل GRPO وSDPO، مع الحفاظ على زيادة في تنوع التدريب وقدرة قوية على العموم حتى في الاختبارات خارج التوزيع.
تعد هذه التطورات خطوة نحو تحسين كيفية تعلّم الآلات وكيف يمكن تعزيز قدراتها في استكشاف المعلومات الجديدة، مما يضع الأساس لمستقبل واعد في مجال الذكاء الاصطناعي. ما رأيكم في هذا التطور؟ شاركونا في التعليقات.
ثورة في تعلم الآلات: اكتشاف نموذج DemoPSD لتحسين التعليم الذاتي في نماذج اللغة
يقدم نموذج DemoPSD حلاً مبتكرًا لمشاكل التسرب المعلوماتي من خلال توجيه الطلاب نحو تحقيق توازن بين التعلم من المعلم والحفاظ على قدرتهم على الاستدلال. تقنيات جديدة تعد بالتحسينات في مجال الذكاء الاصطناعي.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
