تعتبر نماذج اللغات الضخمة (Large Language Models) من أكثر الابتكارات تطورًا في عالم الذكاء الاصطناعي، حيث تقدم أداءً قويًا في مجموعة متنوعة من التطبيقات. ومع ذلك، فإن جاذبية هذه النماذج العالية تأتي مع تكاليف نشر مرتفعة، مما يدفع الباحثين إلى استكشاف تقنيات جديدة للتكميم، بما في ذلك التكميم المنخفض جدًا (extremely low-bit quantization).
تشير دراسة جديدة نُشرت على منصة arXiv إلى أن التكميم في نماذج اللغة الشديدة لا يؤثر فقط على الدقة العددية، بل يعاني أيضًا من تدهور منهجي في السلاسة. وقد وجد الباحثون أن هذا التدهور يزداد سوءًا مع تقليل عرض بت التكميم. تعتمد هذه الدراسة على نموذج جوار التسلسل لتوضيح أن النماذج المكمّمة تظهر انخفاضًا سريعًا في عدد المرشحين الفعليين للتوكن ضمن منطقة التنبؤ، مما يؤدي إلى شجرة تفريغ أكثر فقراً وتدهور في جودة الجيل.
لضمان الحفاظ على السلاسة، قدم الباحثون مبدأ بسيط للتمسك بالسلاسة في كل من التكميم بعد التدريب وتدريب النموذج القائم على التكميم. وقد أظهرت النتائج أن المحافظة على السلاسة تحقق مكاسب إضافية تتجاوز الدقة العددية وحدها. ومن هنا، يبدو أن الحفاظ على السلاسة يُعد اعتبارًا تصميميًا أساسيًا في تطوير طرق التكميم المتقدمة.
لقد أتاح الباحثون كودهم المصدر للإستخدام في تحسين النماذج، مما يعكس أهمية التعاون في مجالات البحث التقني. تبرز هذه النتائج كدعوة للمجتمع العلمي للنظر في الحفاظ على السلاسة كعنصر أساسي في سعيهم نحو تحسين نماذج الذكاء الاصطناعي.
الكفاءة لا تكفي: أهمية الحفاظ على السلاسة في نماذج لغوية منخفضة التكميم
تكشف دراسة جديدة عن تأثير التكميم المنخفض على سلاسة نماذج اللغة، مما يؤدي إلى تدهور في جودة الإنتاج. يجب على الباحثين والمطورين الانتباه إلى هذه القضية لتحقيق أداء أفضل.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
