في إطار البحث الحديث الذي تم نشره على منصة arXiv، تم دراسة تأثير تقنيات وطرق جديدة في تحسين دقة نماذج التشفير، وبالتحديد نموذج SwiGLU المكون من 300 مليون معامل. تم تدريب هذا النموذج على مجموعة ضخمة من البيانات بلغت 5 مليارات رمز، وهدف البحث هو فهم أي المواقع النشطة في المدخلات تؤثر بشكل كبير على دقة الأداء.

يظهر الباحثون أن أسلوب التشفير التقليدي W4A4 يؤدي إلى انهيار في دقة تقييم النماذج، إذ انخفضت درجة التعقيد من 23.6 إلى 1727، مما يعد بمثابة مؤشر على وجود مشكلة كبيرة في النظام. ومع ذلك، وعبر استخدام تدخل بسيط أثناء فترة التدريب، تم تحسين الأداء بشكل ملحوظ. فقد استخدموا تقنيات مثل تسجيلات العمق (Depth Registers) مع خسارة محور التسجيل (register-magnitude hinge loss) لحل المشكلة، مما أدى إلى تقليل درجة التعقيد إلى 119، وهو ما يعادل تحسنًا بنسبة تصل إلى 14 ضعفًا.

تمثلت الإنجازات في تحسينات قوية ظهرت أيضًا عند دمج تقنيات مثل SmoothQuant التي انخفضت بفضلها درجة التعقيد إلى 39.9. ومن المثير للإهتمام أن الفجوة الباقية (حوالي 2) مقارنة بالنماذج القابلة للتنفيذ الأخرى تعكس نقاط الضعف المميزة في نظام التشفير.

علاوة على ذلك، كانت هناك تحليل عميق لفحص التأثيرات الخاصة بمواقع المدخلات، حيث تم تقسيم خمس وحدات خطية قابلة للتدريب في النموذج إلى قراء على محور البقايا ومولدات داخلية. وأثبتت التجارب أن التحكم في مقياس المحور العرضي يضمن بقاء القراء ضمن حدود ضيقة، بينما يبقى إدخال القيم للمولدات مقيدًا بالعوامل الأولية.

إجمالاً، تُظهر نتائج هذه الدراسة أن استخدام تقنيات مثل تسجيلات العمق يُعتبر مؤشراً للتعديل أثناء التدريب أكثر من كونه اقتراحاً للنشر، في حين أن البدائل الأخرى لم تحقق نفس النتائج المبهرة.

تفتح هذه الإنجازات الأبواب نحو مستقبل أكثر إشراقاً في عالم التشفير باستخدام الذكاء الاصطناعي. فكيف تنظرون إلى هذه التطورات الرائدة؟ شاركونا آرائكم!