أحدثت نماذج الاستدلال الكبرى (Large Reasoning Models) تقدمًا ملحوظًا في مجال الذكاء الاصطناعي بفضل تقنيات التعلم المعزز مع مكافآت قابلة للتحقق (Reinforcement Learning with Verifiable Rewards). إلا أن الاعتماد على سلاسل التفكير الطويلة (Chain-of-Thoughts) في هذه النماذج قد يؤدي إلى مشكلات تتعلق بالتفكير المفرط، نظرًا لأن هذه السلاسل تحتوي على تجارب أخطاء طبيعية.

لمعالجة هذه المشكلة، تم اقتراح تقنية جديدة تُعرف باسم ThoughtFold، التي تعتمد على التعلم الدقيق للتفضيلات. تقوم هذه التقنية بتحديد الزوائد في كل مسار صحيح، مما يسمح بإنشاء مجموعة من المسارات الفرعية المحتملة. ومن ثم، تُقدم فكرة تحسين تفضيل مقنع، تهدف إلى تقليل الاستكشافات الزائدة وتعزيز الربط بين مقاطع الاستدلال الأساسية.

تُظهر التجارب الواسعة أن استخدام ThoughtFold ساهم في تحسين الكفاءة بشكل كبير، حيث تمكنت من تقليل استخدام الرموز في نموذج DeepSeek-R1-Distill-Qwen-7B بنسبة تقترب من 56% مع الحفاظ على دقة عالية تفوق ما تقدمه النماذج الأخرى في السوق.

بهذه الطريقة، تُعد تقنية ThoughtFold خطوة كبيرة إلى الأمام في تحسين أداء نماذج الاستدلال وتقديم حلول أكثر كفاءة لمشاكل الذكاء الاصطناعي الحديثة. هل تعتقد أن التطورات في مجال الذكاء الاصطناعي ستستمر في تغيير طريقة تفكير نماذجنا؟ شاركونا آرائكم في التعليقات!