في عالم الذكاء الاصطناعي، يمثل التفاعل مع الأدوات (Tool-integrated reasoning - TIR) تحديًا كبيرًا خاصةً لنماذج اللغة الصغيرة بسبب عدم الاستقرار في التفاعلات الطويلة الأمد مع الأدوات وسعة النموذج المحدودة. ومع أن طرق التعلم المعزز مثل تحسين السياسات النسبية الجماعية (Group Relative Policy Optimization) توفر مكافآت نادرة على مستوى النتائج، إلا أن طريقة التقطير على السياسة (On-policy Distillation - OPD) اكتسبت شعبية كبيرة لما تقدمه من إشراف كثيف على مستوى الرموز من المعلم أثناء العمليات التي يقوم بها الطالب.
ومع ذلك، كشفت التجارب أن تطبيق OPD في حالات TIR يؤدي إلى فشل حرج؛ حيث تتسبب المكالمات الخاطئة للأدوات في تكرار الأخطاء عبر خطوات التفكير اللاحقة، مما يُعظم الفجوة بين الطالب والمعلم ويجعل إشراف المعلم على مستوى الرموز أقل موثوقية تدريجيًا.
للتغلب على هذه المشكلة، نقدم تقنية SOD – إطار عمل لتحسين سياسة التقطير على أساس الخطوات، والذي يعيد وزن قوة التقطير بشكل تكيفي في كل خطوة استنادًا إلى الانحراف على مستوى الخطوة. وبذلك، يمكن لـ SOD تقليل التأثيرات المضللة للمعلم في مناطق الانحراف العالي مع الحفاظ على الإرشاد الكثيف في الظروف المتوافقة.
أظهرت التجارب التي تم إجراؤها على معايير الرياضيات والعلوم والترميز أن SOD تحقق تحسينًا يصل إلى 20.86% مقارنة بالأساس الثاني الأفضل. ومن المثير للاهتمام، أن نموذجنا الذي يمتلك 0.6 مليار وحدة حقق 26.13% على معيار AIME 2025، مما يدل على نقل فعال للتفكير الوكالي إلى نماذج أخف وزناً. لمزيد من المعلومات، يمكنكم الاطلاع على الشيفرة البرمجية الخاصة بنا على [GitHub](https://github.com/YoungZ365/SOD). انضموا إلى النقاش حول هذه التكنولوجيا المتطورة!
ثورة في الذكاء الاصطناعي: تقنية SOD لتحسين نماذج اللغة الصغيرة!
تقدم تقنية SOD إطارًا مبتكرًا لتحسين أداء نماذج اللغة الصغيرة عبر إعادة تقييم قوية للمعايير المرحلية. هذه التكنولوجيا تعد بتغييرات جذرية في كيفية تفاعل الذكاء الاصطناعي مع الأداة في المهام المعقدة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
