تعتمد نماذج الاستدلال الكبيرة (Large Reasoning Models) على مسارات تفكير طويلة ومعقدة، مما يجعل عملية الاستنتاج مكلفة جداً من ناحية الوقت والموارد. وفي إطار سعيها لجعل هذه العملية أكثر كفاءة، قدمت الأبحاث الأخيرة ابتكارات مثيرة في مجال فك التشفير منخفض البت (Low-Bit Inference).

على الرغم من أن تقنيات فك التشفير منخفض البت تساهم في تقليل تكلفة فك تشفير كل رمز، إلا أن البحث الجديد أظهر أن تقنيات 2-بت قد تفشل في تحقيق تسريع شامل، بسبب عدم الاستقرار في عملية التوليد الذي يؤدي إلى زيادة عدد الرموز الإجمالية. بدلاً من تحسين دقة الإجابات، يمكن أن تُنتج تقنيات 2-بت مسارات تفكير أطول تتضمن حلقات تكرارية، استنفاد للميزانية، تأخيرات في الالتزام، وأجزاء من الاستدلال غير مغلقة.

تم تحليل نماذج Qwen3 للاستدلال بشكل كامل عبر اختبارات رياضية وعامة، وأظهرت النتائج أن انخفاض الدقة مرتبط بشكل وثيق بهذه الإخفاقات على مستوى العمليات. لمواجهة هذه التحديات، تم تقديم حلّين خفيفي الوزن: التخطيط باستخدام FP16، والذي يوفر للنموذج منخفض البت outline عالي الدقة لفترة قصيرة، وإنقاذ الحلقات، والذي يكشف عن المسارات التكرارية ويتخذ القرار إما بالتزام بالإجابة السابقة أو العودة إلى FP16.

أظهرت نتائج اختبار MATH-500 تحسناً ملحوظاً، حيث ارتفعت دقة نموذج Qwen3-8B من 17.2% إلى 74.2% بفضل إنقاذ الحلقات، بينما زادت دقة نموذج Qwen3-32B من 65.0% إلى 87.2% مع الجمع بين التخطيط وإنقاذ الحلقات.

تشير هذه النتائج إلى أن الاستدلال منخفض البت يصبح عملياً عندما يُنظر إلى إخفاقاته كإمكانات يمكن التحكم بها خلال عملية التوليد. من خلال الكشف الخفيف والدعم الانتقائي باستخدام FP16، يمكن لتقنيات 2-بت استعادة الدقة مع الحفاظ على سرعة استنتاج حقيقية وشاملة.