في عالم الذكاء الاصطناعي والنماذج الحسابية، يُعتبر ضغط النماذج الفرعية (Sub-bit Model Compression) تحدياً كبيراً. يهدف هذا النوع من الضغط إلى تخفيض حجم التخزين إلى أقل من بت واحد لكل وزن، لكن تكمن المشكلة في أن الإشارات، التي تمثل العلامات، تصبح عقبة ثابتة تقيّد عملية الضغط.
تظهر الأبحاث الحديثة أن العلامات المكتسبة أثناء تدريب النماذج، مثل نماذج محولات اللغة (Transformers) والشبكات العصبية التفاضلية (CNNs) والعديد من نماذج الشبكات متعددة الطبقات (MLPs)، تُظهر مقاومة ملحوظة للتقريب من الرتبة المنخفضة. وليست هذه بمفاجأة بالمقارنة مع قاعدة البيانات العشوائية التي تعتمد على نظرية رادماشر (Rademacher).
تأتي هذه العشوائية لترسم لنا ما يُعرف بجدار الواحد بت (one-bit wall) في ضغط النماذج- وهي العائق الذي يصعب تجاوزه. وعلى الرغم من هذه العشوائية، إلا أن معظم الأوزان تحتفظ بعلاماتها الأصلية، وتحدث التغييرات فقط في الحالات النادرة عند الاقتراب من الحدود القريبة من الصفر.
لتحليل هذه الظاهرة، قدم الباحثون "نظرية القفل على العلامات" (sign lock-in theory)، والتي تعد تحليلاً زمنياً لتقلبات العلامات تحت ضوضاء SGD. في ظل تحديثات مقيدة، ونادراً ما يحدث إعادة دخول إلى جيران صغيرة من الصفر، يظهر عدد تقلبات العلامات الفعالة ذي مؤشرات جيومترية.
بناءً على هذه الآلية، تم تطوير طريقة تدريب جديدة من الألف إلى الياء لتحفيز العلامات منخفضة الرتبة، مما يساعد على تجنب ظهور جدار الواحد بت.
ما زالت هذه الاكتشافات في مراحلها الأولية، لكنها تعطي الأمل في تحسين فعالية النماذج وتمهيد الطريق لأجيال جديدة من الذكاء الاصطناعي الأكثر كفاءة.
هل نحن أمام ثورة في ضغط النماذج؟ نظرية القفل على العلامات تحول المشهد!
توصل الباحثون إلى نتائج مثيرة حول ضغط النماذج الفرعية، حيث تتسبب العلامات العشوائية في عوائق غير متوقعة. هذه النتائج قد تحدث تغييراً جذرياً في كيفية تطوير نماذج الذكاء الاصطناعي.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
