في عالم الذكاء الاصطناعي، خاصة مع توغّل [نماذج [اللغات](/tag/اللغات) الكبيرة](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)-الكبيرة) (Large Language [Models](/tag/models)) مثل LLaMA3 وQwen3، تبرز [تقنية جديدة](/tag/[تقنية](/tag/تقنية)-جديدة) تدعى [TORQ](/tag/torq) (الدوران العمودي ثنائي المستوى لتحويل [MXFP4](/tag/mxfp4)) كأحد [الابتكارات](/tag/الابتكارات) الرئيسية في معالجة مشاكل الكمون.

[تنسيق](/tag/تنسيق) Microscaling FP4 ([MXFP4](/tag/mxfp4)) يُعتبر حجر الزاوية للتطبيقات منخفضة الدقة، إذ يجمع بين نطاق ديناميكي عالٍ وكفاءة في [الأجهزة](/tag/الأجهزة). ولكن، عندما يتم تطبيق [MXFP4](/tag/mxfp4) بشكل مباشر على الكمون الخاص بتنشيط [نماذج](/tag/نماذج) اللغات، فإن النتائج تعاني من انخفاض كبير في [الدقة](/tag/الدقة). يُظهر [البحث](/tag/البحث) أن السبب الجذري وراء هذه الخسارة في [الأداء](/tag/الأداء) يرجع إلى اختلالين هيكليين بين [توزيعات](/tag/توزيعات) التنشيط وبت المكافئات العائمة في الـ [MXFP4](/tag/mxfp4).

للخروج من هذا المأزق، تم تقديم [TORQ](/tag/torq) كإطار [عمل](/tag/عمل) بدون [تدريب](/tag/تدريب) لمعالجة الكمون بعد [التدريب](/tag/التدريب) (Post-Training [Quantization](/tag/quantization) - PTQ)، حيث يعمل على إعادة تشكيل الخصائص الهندسية لمجال التنشيط من خلال [تحويلات](/tag/تحويلات) موضعية مثالية. على المستوى الكلي، تستخدم [TORQ](/tag/torq) [نظرية](/tag/نظرية) شور-هورن (Schur-Horn theorem) لتوزيع [طاقة](/tag/طاقة) التنشيط [عبر](/tag/عبر) الدوران العمودي بين الكتل، مما يمنع الكتل ذات [التباين](/tag/التباين) العالي من رفع عوامل [التوسع](/tag/التوسع) المشتركة، وبالتالي يحافظ على [دقة](/tag/دقة) العناصر ذات القيم الصغيرة.

على المستوى الدقيق، توظف [TORQ](/tag/torq) دورانًا يقوده أقصى إنتروبيا داخل الكتل لتخفيف تكدس خزان [التعليمات](/tag/التعليمات) وزيادة سعة [المعلومات](/tag/المعلومات) لخزان [MXFP4](/tag/mxfp4). الاختبارات أجريت على [نماذج](/tag/نماذج) رئيسية مثل Qwen3-32B، حيث أظهرت النتائج تحسنًا كبيرًا في [دقة التحويل](/tag/[دقة](/tag/دقة)-التحويل) باستخدام [MXFP4](/tag/mxfp4) بالمقارنة مع الأساليب التقليدية. فمثلاً، انخفضت درجة التعقد على WikiText إلى 8.43 مقابل 7.61 لـ BF16، وزادت [دقة التحويل](/tag/[دقة](/tag/دقة)-التحويل) من 38.40% إلى 73.63%، مما يغلق [الفجوة](/tag/الفجوة) بشكل كبير بين [تحويل](/tag/تحويل) النقاط العائمة بقدرة 4 بت والاستنتاج بدقة كاملة.

إن [TORQ](/tag/torq) ليست مجرد [تقنية](/tag/تقنية) جديدة، بل تمثل قفزة نوعية في كيفية تعاملنا مع [النماذج](/tag/النماذج) الكبيرة، محققة التوازن المفقود بين [الكفاءة](/tag/الكفاءة) والدقة. فما رأيكم في هذه [التقنية الحديثة](/tag/[التقنية](/tag/التقنية)-الحديثة)؟ هل ترون أنها قد تكون لها [تأثيرات](/tag/تأثيرات) كبيرة على [مستقبل الذكاء الاصطناعي](/tag/[مستقبل](/tag/مستقبل)-الذكاء-الاصطناعي)؟ شاركونا آراءكم في [التعليقات](/tag/التعليقات).