في عالم الذكاء الاصطناعي، تظل نماذج اللغة (Language Models) محورية في فهم وتوليد النصوص. لكن المشكلة التي تواجه العديد من هذه النماذج هي أنها تعتمد فقط على السياقات السابقة، مما يعني أنها تتجاهل المعلومات المتاحة في المستقبل أثناء فترة التدريب. هنا يأتي دور تقنية جديدة تدعى Regret Pre-training، التي تعد ثورة في هذا المجال.

تعتمد هذه التقنية على إطار تعلم ذاتي يُعرف باسم "التعلم باستخدام المعلومات المميزة" (Learning Using Privileged Information - LUPI). حيث تقدم هيكلاً ذا وجهتي نظر، إذ تتيح لنموذج واحد أن ينتج توزيعاً للطالب (Student Distribution) الشرطي على المستقبل، ودليل لتوزيع المستقبل (Teacher Distribution).

الهدف من التدريب يصبح أكثر تعقيداً، حيث يتم تعزيز نمذجة اللغة التقليدية بخسارة تراجع (Regret Loss)، مما يقلل من تباعد Kullback-Leibler (KL Divergence) بين نموذج الطالب ونموذج المعلم، مما يساعد على نقل الإشارات المستقبلية إلى التمثيلات السببية.

لقد تم اختبار تقنيتين معماريتين باستخدام نموذج OLMoE-1B-7B: "LocalRegret" التي توسع الانتباه برمز مستقبل واحد، و"GlobalRegret" التي تعتمد على السياق الثنائي الاتجاه مع إخفاء الموقع المستهدف. أظهرت التجارب على تسع مهام مختلفة، بعد تدريب دام أربع مليارات رمز، أن كلا التكوينين يتفوقان باستمرار على نموذج الأساس. حيث حقق "GlobalRegret" دقة مقدارها 33.9% و"LocalRegret" 32.2%، متجاوزين 30.2% للنموذج الأساسي.

النتيجة الأبرز كانت في أداء BoolQ، حيث زادت نسبة التحسن بمقدار 18.1 نقطة مئوية (61.0% مقابل 42.9%). والأكثر إثارة هو أن هذه التقنية لا تضيف أي معلمات إضافية، وتحتاج فقط إلى خطوة تقديم إضافية واحدة لكل جولة تدريب.

باختصار، يبدو أن مشروع Regret Pre-training يعد تقدماً ملحوظاً في تحسين نماذج اللغة، حيث يُظهر كيف يمكن استخدام المعلومات المستقبلية لتعزيز الأداء الكلي للنماذج. ما رأيكم في هذا التطور؟ شاركونا في التعليقات.