في عالم الذكاء الاصطناعي، تتزايد التحديات المتعلقة بالمهام طويلة الأمد، مما يتطلب نماذج متقدمة قادرة على تقديم حلول فعالة. إليكم KLong، الوكيل الجديد المفتوح المصدر الذي تم تطويره خصيصًا للتعامل مع هذه المهام المعقدة.
يبدأ عمل KLong بإطلاق بارد للنموذج عبر تقنية تقسيم المسارات (trajectory-splitting) لتدريب النموذج بشكل مشترك (SFT)، ليقوم بعد ذلك بالتحجيم من خلال التدريب التقدمي المعزز (progressive RL). في المرحلة الأولى، يتم تنشيط القدرات الأساسية للوكيل باستخدام وصفة شاملة للتدريب الموجه.
إحدى الابتكارات المثيرة في KLong هي "Research-Factory"، وهي آلية آلية تولد بيانات تدريب عالية الجودة عبر جمع الأبحاث وبناء معايير تقييم. من خلال هذه الآلية، تم إنشاء الآلاف من المسارات الطويلة المنقحة من نموذج Claude 4.5 Sonnet.
لعلاج هذه المسارات الطويلة، تم اقتراح تقنية جديدة للتقسيم في التدريب الموجه، والتي تحافظ على السياق المبكر، وتقوم بتقليص السياقات اللاحقة تدريجيًا. وتعمل على الحفاظ على تداخل بين المسارات الفرعية.
علاوة على ذلك، لتحسين قدرة النموذج على حل المهام طويلة الأمد، قدم الباحثون تدريبًا تقدميًا مبتكرًا يقوم بتوزيع التدريب على مراحل متعددة مع فترات انتظار تمتد تدريجيًا.
تظهر التجارب تقدم KLong في الأداء والتعميم، حيث يتفوق KLong (106B) على Kimi K2 Thinking (1T) بفارق 11.28% في اختبارات PaperBench، كما أن تحسين الأداء يمتد إلى معايير ترميز أخرى مثل SWE-bench Verified و MLE-bench.
ما رأيكم في هذا التطور المذهل في الذكاء الاصطناعي؟ شاركونا أفكاركم في التعليقات.
⏱ 2 دقائق للقراءة👁 0 مشاهدة
تدريب وكيل KLong: الحل الأمثل لمهام طويلة الأمد في عالم الذكاء الاصطناعي
يقدم مشروع KLong نموذجًا مفتوح المصدر مخصصًا للتعامل مع المهام طويلة الأمد باستخدام تقنيات جديدة في التدريب. مع إنجازات تفوق المعايير الحالية، يشن KLong ثورة في كيفية معالجة التحديات المعقدة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
