في عالم الذكاء الاصطناعي، تأتي نماذج اللغات الضخمة (Large Language Models - LLMs) كأحد الأدوات الأكثر تأثيرًا في التواصل وفهم اللغة. ومع ذلك، غالبًا ما يتطلب استخدامها تحسينًا مستمرًا لتوافق سلوكها مع نوايا المستخدمين عند نشرها. تتنوع الطُرق المُستخدمة لتلك التحسينات، لكن يمكن تقسيمها إلى فئتين رئيسيتين: الطرق المتصلة بالإنترنت (online) والطرق غير المتصلة (offline).

تكمن المشكلة في أن الأساليب المتصلة، مثل تحسين العلاقات المعتمد على التعزيز (Reinforcement Learning-based alignment)، قد تُقدم جودة نتائج مباشرة ولكنها تعتمد غالبًا على نماذج مكافأة خارجية وتكرارات مُعقدة، مما يجعلها مكلفة وصعبة التنفيذ في العديد من الحالات.

على الجانب الآخر، تُعد الطرق غير المتصلة أكثر كفاءة، لكن الطرق السائدة مثل التعلم الخاضع للإشراف (Supervised Fine-Tuning - SFT) وتحسين التفضيلات المباشرة (Direct Preference Optimization - DPO) تواجه قيودًا. حيث يقوم SFT عادةً بتحويل التغذية الراجعة المتدرجة إلى إشراف ثنائي، بينما يعتمد DPO على بيانات تفضيل مرتبطة غالبًا ما تكون غير متاحة أو مكلفة لتكوينها.

تُقدم دراستنا الجديدة مفهوم التعلم الخاضع للأهداف (Goal-Conditioned Supervised Learning - GCSL) كإطار عمل مبتكر ويُسرق في تحسين نماذج اللغات الضخمة. الفكرة الأساسية هي اعتبار إشارات التغذية الراجعة كهدف واضح وتدريب النموذج، فقط من خلال التعلم الخاضع للإشراف، لتوليد ردود تحقق ذلك الهدف.

للاستفادة بشكل أفضل من التغذية الراجعة المتدرجة، نقدم صياغة جديدة للأهداف تُعرّف التعلم على أنه متابعة مخرجات تتجاوز عتبة جودة مستهدفة، بدلاً من تقليد عينات من مجموعة مختارة ذات جودة عالية. يهدف هذا التصميم إلى تخفيف آثار التعلم المحدود لدى SFT وGCSL الكلاسيكي من خلال توجيه النموذج بشكل صريح نحو التعلم بالتقدم الجهوي للجودة.

كما نقترح تمثيلات الأهداف بلغة طبيعية لتعزيز القدرات الفهمية والاستدلالية لنماذج اللغات الضخمة. أجرينا تقييمات لطريقتنا الجديدة على ثلاث مهام: توليد نص غير سام، توليد كود، ونماذج لغات كبيرة لتوصيات. أظهرت النتائج أن نهجنا يتفوق بلا منازع على الأساليب التقليدية لتحسين الأداء، بينما يحتفظ في نفس الوقت بكفاءة وسهولة متطلبات البيانات الخاصة بالتعلم الخاضع للإشراف.