تسعى الأبحاث الحديثة باستمرار لتحسين كفاءة النماذج اللغوية الضخمة (Large Language Models) وتخفيف الأعباء المرتبطة بالتخزين والمعالجة. قدم فريق من الباحثين تقنية جديدة تُعرف باسم "MixT"، والتي تمثل نظام ضغط هيكلي يعتمد على الموترات (tensor) هدفه استبدال الطبقات الكثيفة التقليدية بخلطات قابلة للتنفيذ من مشغلات الموترات.
الابتكار في MixT يكمن في استهداف التحويلات الخطية الكثيفة واستبدالها بأساليب تعمل على تطبيقات خطية عامة، مما يجعلها ملائمة للنماذج المستندة إلى بنية المحولات (Transformers) بالإضافة إلى غيرها من الشبكات العصبية الكثيفة.
أجريت تجارب على نموذجين بارزين هما Qwen3-8B وLLaMA2-7B، حيث تم استخدام بروتوكول استعادة موحد. وقد أظهرت النتائج وجود نطاقات واسعة قابلة للضغط مع الحفاظ على دقة نموذج MMLU، حتى الوصول إلى نقطة تغير حادة عند الحدود الخاصة بالنماذج. وفي هذه النقطة، تم تقليل حجم النموذج بالكامل بنسبة 47.5%، وخفض تكاليف الاستنتاج (FLOPs) بـ37.1%، وتكاليف التدريب بـ52.1%، بالإضافة إلى تقليل الذاكرة المطلوبة لعمليات الاستنتاج بنسبة تصل إلى 60.4%.
تعكس هذه النتائج إمكانيات MixT الحقيقية لتخفيف تكاليف ضغط النماذج اللغوية الضخمة، مما يعد بمستقبل أكثر فعالية وكفاءة في هذا المجال.
اكتشاف مذهل: تقنية ضغط جديدة للنماذج اللغوية الضخمة تُحدث ثورة في الكفاءة!
تقدم تقنية MixT الجديدة طريقة مبتكرة لضغط النماذج اللغوية الضخمة، مما يساهم في تقليل التكاليف والموارد المطلوبة. النتائج تشير إلى إمكانية الحفاظ على دقة عالية أثناء تنفيذ العمليات.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
