في عالم الذكاء الاصطناعي، أثرت معمارية Joint Embedding Predictive Architectures (JEPAs) بشكل عميق على تعلم التمثيل الذاتي الإشراف. ومع التطورات الأخيرة، تم تحويل هذه المعمارية لتناسب نماذج اللغة الكبيرة (LLMs)، ولكنها واجهت تحديات كبيرة تتمثل في الحاجة إلى بيانات متعددة الأبعاد والحاجة إلى تمريرات متعددة خلال خطوات التدريب.

هنا يأتي دور DLLM-JEPA، الذي يقدم حلاً مبتكراً يجمع بين ميزات JEPA وطبيعة النماذج اللغوية المستندة إلى التشتت. هذه الطريقة الجديدة تسمح بتحقيق رؤى دلالية متميزة لنفس المدخلات دون الحاجة لبيانات زوجية واضحة، وتدعم خطوة تمرير واحدة فقط للأغراض التدريبية، مما يؤدي إلى خفض استهلاك FLOPs أثناء التدريب بنسبة تصل إلى 33%.

أظهرت نتائج التجارب أيضًا أن DLLM-JEPA يتفوق على طرق التدريب التقليدية، حيث سجل تحسنًا يصل إلى 18.7 نقطة مئوية على نموذج LLaDA-8B في اختبار GSM8K، و11.4 نقطة مئوية على نموذج Dream-7B. ووفقًا للبيانات، حققت DLLM-JEPA مكاسب مثبتة في دقة الأداء عبر مجموعات متعددة من المهام والمعمارية.

لكن الأمر لا يقتصر على دقة الأداء فقط! فعلى نموذج LLaDA-8B مع إعداد Wide-t، نجح DLLM-JEPA في رفع دقة نموذج GSM8K بينما ساهم في تقليل فقدان Wikitext إلى مستوى أقل من الأساس المدرب. ومن خلال استكشاف طبقات الشبكة، تم اكتشاف أن هناك آلية تُعرف بالانحراف الوظيفي الهندسي، حيث تتحرك العمود الفقري المدرب بشكل أكبر بعيدًا عن الأوزان المدربة مسبقًا، مما يؤدي إلى نسيان أقل في النصوص المحجوبة.

إذا كنت من محبي الذكاء الاصطناعي، فاحرص على متابعة هذه التطورات المدهشة التي تعد بتغيير قواعد اللعبة في نماذج اللغة الكبيرة!