في عالم الذكاء الاصطناعي، يبقى بُعد النموذج (Model Dimension) أحد العوامل الأساسية في نماذج اللغة القائمة على المحولات، ورغم ذلك، فإن دوره في تحديد الحدود الهندسية للتمثيل يبقى غير مستكشف بشكل كافٍ. بتوجيه من فرضية التمثيل الخطي (Linear Representation Hypothesis) وفرضية التراكب (Superposition Hypothesis) التي تقترح أن النماذج تقوم بترميز الميزات في اتجاهات قريبة من العمودية في الفضاء الكامن، قمنا بتطوير إطار تقدير لتحديد عدد هذه الاتجاهات التي يمكن أن تدعمها النموذج.
لقد بدأنا بوضع مصفوفة التضمين (Embedding Matrix) كوسيلة قابلة للقياس ، لتحديد القيود القريبة من العمودية عبر الفضاء الكامن. حيث يحدد الحد الفاصل بين العلاقات المهمة بين الرموز والتشابه العرضي في توزيع تشابه الكوسين (Cosine Similarity Distribution) تقديراً ملموساً لمدى قبول النموذج للخروج عن الكمال في العمودية، المسمى بالانحراف (ε).
تطبيق هذه المعايير عبر العشرات من النماذج مفتوحة المصدر يكشف لنا عن فئتين من النماذج: الأولى ذات انحراف عالي (ε) حيث تفتقر تمثيلاتها للبنية القريبة من العمودية، والثانية ذات انحراف منخفض (ε) التي تحافظ على هذه البنية.
علاوة على ذلك، أظهرنا أن نظرية جونسون-ليندنستراوس (Johnson-Lindenstrauss Lemma) تقلل بشكل كبير من تقدير كفاءة تعبئة التمثيلات المدربة، واستخلصنا صيغة سعة معدلة حيث تعتمد عدد الاتجاهات القريبة من العمودية على نسبة المتجهات إلى الأبعاد (k/d) بدلاً من العدد الخام. هذه التعديل البسيط يقلل من خطأ التنبؤ بمقدار مرتين دون الحاجة إلى أي معلمات إضافية.
من خلال دمج هذه النتائج، عرفنا سعة التمثيل كحد أقصى لعدد الاتجاهات القابلة للتمييز المتاحة للميزات والتضمينات في الفضاء الكامن للنموذج. تظهر السعة حساسية كبيرة للتغييرات في ε، حيث تفضل النماذج الأكبر فرض قيود أكثر صرامة على العمودية بدلاً من تحقيق سعة خام أكبر. هذه الأنماط تتناسب مع عدة تفسيرات، من بينها توازن بين الاستقرار والسعة، أو وجود حد أعلى للمفاهيم القابلة للاستخدام، أو عوامل مختلطة مع حجم النموذج، والتي نتركها لأبحاث مستقبلية.
اكتشاف الحدود الهندسية لتحسين تمثيل الميزات في نماذج اللغة القائمة على المحولات
تسليط الضوء على أهمية بُعد النموذج (Model Dimension) في نماذج اللغة القائمة على المحولات وكيفية تأثيره على تمثيل الميزات. هذا البحث يكشف عن إطار لتقييم سعة التمثيل في الفضاء الكامن للنماذج.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
