في عالم الذكاء الاصطناعي، تلعب نماذج الاستدلال الكبيرة (Large Reasoning Models) دوراً حاسماً في حل المشكلات المعقدة. ولكن، الجانب السلبي هو أن هذه النماذج تحتاج إلى زيادة كبيرة في تكلفة الاستدلال بسبب توليدها لخوارزميات متوسطة طويلة. هنا يأتي دور تقنية NVFP4، التي تقدم بديلاً واعدًا لتقليل التكلفة الحاسوبية وتكاليف الذاكرة عبر تنفيذ منخفض الدقة مدعوم بالأجهزة.

ومع ذلك، يواجه تطبيق NVFP4 على نماذج الاستدلال الكبيرة بعض التحديات. أولاً، دقة الاستدلال تتدهور تحت تأثير عملية التكميم (quantization). ثانياً، النماذج الحالية من NVFP4 لا تحقق فوائد حقيقية من حيث زمن الانتظار عند استخدام عمليات التشفير الذاتي (autoregressive decoding) في دفعات صغيرة.

في هذا البحث، تناولنا تأثير التكميم NVFP4 على عدم اليقين على مستوى الرموز خلال عملية الاستدلال. وقد أظهرنا أن التكميم يزيد من احتمالات العينة غير الصحيحة عند الرموز ذات الإنتروبيا المنخفضة، مع التركيز المفرط على مجموعة صغيرة من الرموز أثناء خطوات الاستدلال عالية عدم اليقين.

بناءً على هذا، نقترح تقنية جديدة تعرف باسم ReSET، التي تعتمد على درجة حرارة الاستدلال المبنية على عدم اليقين. تقوم هذه التقنية بتقدير عدم اليقين على مستوى الخطوات بشكل مباشر، وتعديل درجة الحرارة خلال عملية فك الترميز باستخدام إشارات عدم اليقين على مستوى الرموز والخطوات.

لمعالجة الفجوة الزمنية، قمنا بتصميم نواة NVFP4 صغيرة تعتمد على CUDA لمعالجة كود الإشارات ذات الزمن الحرج. على مستوى معايير الاستدلال وأحجام النماذج، تُظهر ReSET تحسينًا في دقة الاستدلال بمقدار يصل إلى حوالي 2 نقطة مقارنة بالمعيار الأساسي NVFP4. كما زادت نواة CUDA الصغيرة الخاصة بنا من سرعة فك الترميز الحرجة زمنياً، حيث حققت تسريعًا بمعدل 2.5 مرة على مستوى النواة مقارنة بـ NVFP4 vLLM، وحوالي 2 مرة سرعة فك الترميز من النهاية إلى النهاية مقارنة بـ BF16.

يتوفر الرمز المصدر على [رابط_المقال]. هل تعتقد أن هذه التقنية ستغير قواعد اللعبة في عالم الذكاء الاصطناعي؟ شاركونا آراءكم في التعليقات.