في عالم الذكاء الاصطناعي، تصدرت نماذج التفكير الكبيرة (Large Reasoning Models - LRM) عناوين الأخبار بسبب أدائها الاستثنائي في حل المسائل المعقدة. ولكن، هل تعلم أن هذه النماذج تعتمد بشكل كبير على "سلسلة التفكير الطويلة" (Chain of Thought - CoT) مما يتسبب في زيادة العبء الحاسوبي بشكل ملحوظ؟
للتغلب على هذه المشكلة، قدم الباحثون خطوة جديدة من خلال نموذج Thinking-Based Non-Thinking (TNT)، الذي يقوم بدور كبير في تحسين الأداء.
يعتمد TNT على التعلم المعزز (Reinforcement Learning - RL) لتدريب نماذج التفكير الهجينة، حيث يحدد ما إذا كان يجب الانخراط في التفكير بناءً على تعقيد الاستعلامات. لكن، كانت هناك تحديات بسبب ما يُعرف بمشكلة "التحايل على المكافآت" (Reward Hacking)، حيث قد يقرر النموذج الانخراط في التفكير لكنه يتلقى حكمًا بأن هذه العملية لم تحدث، ما يؤدي إلى مكافآت غير صحيحة.
لحل هذه المشكلة، اقترح الباحثون استخدام النموذج TNT الجديد الذي لا يعتمد على الضبط الدقيق الخاضع للإشراف (Supervised Fine-Tuning - SFT). بدلاً من ذلك، يتم تحديد حدود لاستخدام التوكنات بصورة مختلفة لاستجابات غير التفكير بناءً على المعلومات المستخلصة من مكونات الحل للاستجابات المعتمدة على التفكير.
أظهرت التجارب التي أجريت على خمسة معايير رياضية أن نموذج TNT نجح في تقليل استخدام التوكنات بنسبة تصل إلى 50% مقارنةً بالنماذج السابقة مثل DeepSeek-R1-Distill-Qwen-1.5B/7B وDeepScaleR-1.5B، دون التضحية بالدقة.
بالفعل، نجح TNT في تحقيق التوازن المثالي بين الدقة والكفاءة، حيث بقيت احتمالية المشكلة التحايل على المكافآت في استجابات TNT المصنفة على أنها غير تفكير أقل من 10% عبر جميع مجموعات البيانات التي تم اختبارها.
إن نموذج TNT وهو يمثل قفزة نوعية في مجال الذكاء الاصطناعي، ليس فقط من حيث الأداء، بل أيضًا من حيث الكفاءة، مما يفتح آفاقًا جديدة لمستقبل الابتكارات التقنية.
ما رأيكم في هذا التطور؟ شاركونا في التعليقات.