في عالم الذكاء الاصطناعي، خاصة مع توغّل نماذج اللغات الكبيرة (Large Language Models) مثل LLaMA3 وQwen3، تبرز تقنية جديدة تدعى TORQ (الدوران العمودي ثنائي المستوى لتحويل MXFP4) كأحد الابتكارات الرئيسية في معالجة مشاكل الكمون.

تنسيق Microscaling FP4 (MXFP4) يُعتبر حجر الزاوية للتطبيقات منخفضة الدقة، إذ يجمع بين نطاق ديناميكي عالٍ وكفاءة في الأجهزة. ولكن، عندما يتم تطبيق MXFP4 بشكل مباشر على الكمون الخاص بتنشيط نماذج اللغات، فإن النتائج تعاني من انخفاض كبير في الدقة. يُظهر البحث أن السبب الجذري وراء هذه الخسارة في الأداء يرجع إلى اختلالين هيكليين بين توزيعات التنشيط وبت المكافئات العائمة في الـ MXFP4.

للخروج من هذا المأزق، تم تقديم TORQ كإطار عمل بدون تدريب لمعالجة الكمون بعد التدريب (Post-Training Quantization - PTQ)، حيث يعمل على إعادة تشكيل الخصائص الهندسية لمجال التنشيط من خلال تحويلات موضعية مثالية. على المستوى الكلي، تستخدم TORQ نظرية شور-هورن (Schur-Horn theorem) لتوزيع طاقة التنشيط عبر الدوران العمودي بين الكتل، مما يمنع الكتل ذات التباين العالي من رفع عوامل التوسع المشتركة، وبالتالي يحافظ على دقة العناصر ذات القيم الصغيرة.

على المستوى الدقيق، توظف TORQ دورانًا يقوده أقصى إنتروبيا داخل الكتل لتخفيف تكدس خزان التعليمات وزيادة سعة المعلومات لخزان MXFP4. الاختبارات أجريت على نماذج رئيسية مثل Qwen3-32B، حيث أظهرت النتائج تحسنًا كبيرًا في دقة التحويل باستخدام MXFP4 بالمقارنة مع الأساليب التقليدية. فمثلاً، انخفضت درجة التعقد على WikiText إلى 8.43 مقابل 7.61 لـ BF16، وزادت دقة التحويل من 38.40% إلى 73.63%، مما يغلق الفجوة بشكل كبير بين تحويل النقاط العائمة بقدرة 4 بت والاستنتاج بدقة كاملة.

إن TORQ ليست مجرد تقنية جديدة، بل تمثل قفزة نوعية في كيفية تعاملنا مع النماذج الكبيرة، محققة التوازن المفقود بين الكفاءة والدقة. فما رأيكم في هذه التقنية الحديثة؟ هل ترون أنها قد تكون لها تأثيرات كبيرة على مستقبل الذكاء الاصطناعي؟ شاركونا آراءكم في التعليقات.