شهدت السنوات الأخيرة ثورة في تقنيات تعلم تمثيلات اللغة، حيث كانت نمذجة اللغة المقنعة (Masked Language Modelling) هي الهدف السائد في تدريب محفزات النصوص منذ ظهور نموذج BERT. ومع ذلك، فإن هذا النهج يميل إلى التركيز على الهوية السطحية للرموز بدلاً من البناء الدلالي الأعمق للنص.

استلهمت مجموعة من الباحثين من النجاح الذي حققته تقنيات المعمارية التنبؤية للصورة والصوت (Joint Embedding Predictive Architectures - JEPA) في تطوير نماذج جديدة. حيث اقترحوا هدف تدريب هجين يجمع بين خسارة التنبؤ في الفضاء الكامن بأسلوب JEPA، مع الهدف التقليدي لنموذج اللغة المقنع، باستخدام مُشفِّر مشترك.

تتضمن الطريقة الجديدة استخدام معامل قابل للتعلم لتحسين التوازن بين الهدفين خلال عملية التدريب. تم إعداد نموذج هجين ونموذج بسيط للغة المقنعة على قاعدة بيانات ويكيبيديا الإنجليزية، واختبر الباحثون الأداء باستخدام معماريات وموارد متطابقة، مما أتاح مخرجات موثوقة.

من خلال تحليل شامل للتمثيلات عبر خمسة معايير من GLUE (SST-2، MRPC، MNLI، CoLA، STS-B) باستخدام أربع استراتيجيات تجميع، أظهرت النتائج أن المُشفِّر الهجين ينتج تمثيلات أكثر اتساقًا حيث انخفضت uniformity إلى أقل من -0.16 مقارنة بـ -0.05 للنموذج التقليدي. كما لوحظت هندسة طيفية أغنى تحت تجميع السقف، مما يعني تقليل المعلومات السطحية ومعادلة أفضل بين الدلالات والتعبيرات اللغوية.

رغم تحقيق دقة مشابهة في التطبيقات العملية، إلا أن الاختلافات الهندسية كانت متسقة ومهمة، مما يشير إلى أن الهدف التنبؤي لنموذج JEPA يعيد تشكيل الفضاء الكامن بطرق لا تستطيع مقاييس الدقة التقليدية التقاطها. إن هذا التطور يمكن أن يمثل خطوة هائلة نحو تحسين الأداء في مهام الذكاء الاصطناعي اللغوي وتطبيقاته المتعددة.