أحدثت نماذج الاستدلال الكبرى (Large Reasoning Models) تقدمًا ملحوظًا في مجال الذكاء الاصطناعي بفضل تقنيات التعلم المعزز مع مكافآت قابلة للتحقق (Reinforcement Learning with Verifiable Rewards). إلا أن الاعتماد على سلاسل التفكير الطويلة (Chain-of-Thoughts) في هذه النماذج قد يؤدي إلى مشكلات تتعلق بالتفكير المفرط، نظرًا لأن هذه السلاسل تحتوي على تجارب أخطاء طبيعية.
لمعالجة هذه المشكلة، تم اقتراح تقنية جديدة تُعرف باسم ThoughtFold، التي تعتمد على التعلم الدقيق للتفضيلات. تقوم هذه التقنية بتحديد الزوائد في كل مسار صحيح، مما يسمح بإنشاء مجموعة من المسارات الفرعية المحتملة. ومن ثم، تُقدم فكرة تحسين تفضيل مقنع، تهدف إلى تقليل الاستكشافات الزائدة وتعزيز الربط بين مقاطع الاستدلال الأساسية.
تُظهر التجارب الواسعة أن استخدام ThoughtFold ساهم في تحسين الكفاءة بشكل كبير، حيث تمكنت من تقليل استخدام الرموز في نموذج DeepSeek-R1-Distill-Qwen-7B بنسبة تقترب من 56% مع الحفاظ على دقة عالية تفوق ما تقدمه النماذج الأخرى في السوق.
بهذه الطريقة، تُعد تقنية ThoughtFold خطوة كبيرة إلى الأمام في تحسين أداء نماذج الاستدلال وتقديم حلول أكثر كفاءة لمشاكل الذكاء الاصطناعي الحديثة. هل تعتقد أن التطورات في مجال الذكاء الاصطناعي ستستمر في تغيير طريقة تفكير نماذجنا؟ شاركونا آرائكم في التعليقات!
ثورة في نماذج التفكير: تعرف على تقنية ThoughtFold الجديدة لتحسين الاستدلال!
تقدم تقنية ThoughtFold قفزة نوعية في نماذج الاستدلال الكبرى (Large Reasoning Models)، حيث تعمل على تقليل الاستكشافات الزائدة وتعزيز كفاءة التفكير. مراجعات التجارب أظهرت انخفاضًا ملحوظًا في استخدام الرموز مع الحفاظ على دقة عالية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
