شهدت تقنية تقطير السياسة على النماذج اللغوية (On-Policy Distillation - OPD) اهتمامًا كبيرًا في الآونة الأخيرة بفضل فعاليتها في تحسين القدرات بدون التسبب في تحريف توزيع النموذج، مما يؤدي إلى تدهور في المهام العامة. ومن ضمن جوانب هذه التقنية، تبرز تقطير الذات على السياسة (On-Policy Self-Distillation - OPSD) كحل جذاب، حيث يتطلب وجود نموذج واحد فحسب يعمل كطالب ومعلم، ويتيح توفير سياق خاص مفقود أثناء عملية الاستدلال، مثل المعلومات الشخصية أو الحقائق الخاصة أو الحلول المعقدة خلال عملية التدريب.
ومع ذلك، فإن التحدي الأكبر في اعتماد هذه الطريقة هو أن المعلومات الحصرية قد تؤثر بشكل غير مقصود على سلوك النموذج. إذ يمكن أن تعدل طرق التفكير، وتقلل من القدرات العامة، كما تؤثر على مؤشرات الأداء مثل طول الاستجابة، والأسلوب، أو تفضيلات الرموز المحلية.
وبناءً على ذلك، قد يتم تدريب الطالب على آثار جانبية بدلاً من سلوك قابل للتحويل. في ورقتنا البحثية، درست هذه المشكلة في سياق الرموز النادرة والهوية، واقترحنا تقنية جديدة تحمل اسم تقطير السياسة المدعوم بالأدلة (EviDence GuidEd On-Policy Distillation - EDGE-OPD).
تتميز هذه التقنية بتوجيه دورات التدريب لإدخال سلوكيات السياق الحصري إلى النموذج أثناء عملية العينة، مما يجعل السلوك المستهدف النادر موجودًا فعلاً في البيانات من حيث السياسة. كما تُطبق تقنية قناع الأدلة، حيث يتم تحديث الطالب فقط في مواقع الرموز التي تدعمها المعلومات الحصرية، بدلاً من تحديثه في كل رمز موجود في الدورة.
أثبتت الدراسة تجريبيًا أن تقنية OPSD وفروعها الأخرى (مثل RLSD) تفشل تمامًا في تعلم هوية مستهدفة، بينما تمكّن دمج الدوران الموجه من النجاح. بالإضافة إلى ذلك، أظهرت تجارب إلغاء قناع المناطق أن إشارة الهوية تتركز في ذيل الأدلة الإيجابية، مما يتيح لنا استنتاجات قيمة حول نقل المعرفة بشكل فعال والحفاظ على القدرات العامة.
EDGE-OPD: كيف تُعزِّز المعلومات الحصرية أداء نماذج الذكاء الاصطناعي؟
تقدم دراسة جديدة مفهوم EDGE-OPD الذي يعدل طريقة تعلم نماذج الذكاء الاصطناعي لتعزيز أدائها باستخدام المعلومات الحصرية. الاكتشافات الجديدة تعد بمثابة ثورة في تطوير قدرات النماذج اللغوية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
