في عالم الذكاء الاصطناعي، يلعب استخدام الأدوات على المدى الطويل (Long-Horizon Tool-Use) دورًا حاسمًا في تطوير وكالات الذكاء الاصطناعي القادرة على تحقيق نتائج فعالة. ولكن، قد تواجه هذه الوكالات تحديات عندما يتعلق الأمر بتحقيق نتائج دقيقة من خلال آليات التحقق من النتائج.
في محاولة لحل هذه المشكلة، تم تقديم تقنية جديدة تُعرف بالتقطير القائم على التوجيه من الأشقاء (Sibling-Guided Credit Distillation - SGCD). تستند هذه التقنية إلى فكرة استخدام نموذجين، حيث يعمل أحدهما كمدرس (Teacher) ويوجه الآخر، مما يعزز قدرة الوكيل على التعلم من التجارب.
وتظهر الدراسات أن التقطير المباشر على مستوى الرموز (Token-Level Distillation) قد يؤدي أحيانًا إلى نتائج سلبية؛ حيث يمكن أن تتداخل المهارات المفيدة مع الطرق الضارة، مما يجعل عملية التعلم أقل فعالية. لكن مع تقديم تقنية SGCD، يُستخدم التقطير لتعزيز توزيع الفوائد بدلاً من تنافس الخسائر بين الوكلاء.
من خلال عينة ديناميكية من عمليات النشر الناجحة والفاشلة، يقوم النموذج الخارجي بملخص مقارن يُستخدم كمرجع تدريبي. وبالتالي، توفّر هذه الطريقة إشارات أكثر كثافة لتوجيه عملية تحسين الأداء.
لقد أظهرت النتائج أن SGCD تفوقت على الطرق التقليدية في بيئات مثل AppWorld و$ au^3$-airline، مع تحسينات ملحوظة في نتائج الاختبار، مما ينبه المجتمع الأكاديمي والعملي لأهمية هذه الابتكارات.
في النهاية، هل تعتقد أن هذه التقنيات الجديدة ستحدث ثورة في طريقة استخدام الذكاء الاصطناعي للأدوات؟ شاركونا آرائكم في التعليقات.
أطلق العنان لتقنيات التعلم العميق: دليل جديد لتحسين أداء الوكلاء الذكيين باستخدام تقنيات التقطير القائمة على التوجيه
تقدم الدراسة الجديدة تقنية مبتكرة تُعرف بالتقطير القائم على التوجيه من الأشقاء، لتحسين أداء وكلاء الذكاء الاصطناعي في الاستخدام المطول للأدوات. هذه الطريقة تعد بتحسينات مذهلة في قدرات التعلم الذاتي من خلال إعادة توزيع الفوائد بشكل أكثر فعالية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
