في عالم الذكاء الاصطناعي، تأتي [نماذج [اللغات](/tag/اللغات) الضخمة](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)-الضخمة) (Large Language [Models](/tag/models) - [LLMs](/tag/llms)) كأحد [الأدوات](/tag/الأدوات) الأكثر تأثيرًا في [التواصل](/tag/التواصل) وفهم [اللغة](/tag/اللغة). ومع ذلك، غالبًا ما يتطلب استخدامها تحسينًا مستمرًا لتوافق سلوكها مع [نوايا المستخدمين](/tag/[نوايا](/tag/نوايا)-المستخدمين) عند نشرها. تتنوع الطُرق المُستخدمة لتلك التحسينات، لكن يمكن تقسيمها إلى فئتين رئيسيتين: الطرق المتصلة بالإنترنت (online) والطرق غير المتصلة (offline).

تكمن المشكلة في أن الأساليب المتصلة، مثل [تحسين](/tag/تحسين) [العلاقات](/tag/العلاقات) المعتمد على التعزيز ([Reinforcement Learning](/tag/reinforcement-learning)-based alignment)، قد تُقدم جودة نتائج مباشرة ولكنها تعتمد غالبًا على [نماذج](/tag/نماذج) [مكافأة](/tag/مكافأة) خارجية وتكرارات مُعقدة، مما يجعلها مكلفة وصعبة التنفيذ في العديد من الحالات.

على الجانب الآخر، تُعد الطرق غير المتصلة أكثر كفاءة، لكن الطرق السائدة مثل [التعلم](/tag/التعلم) الخاضع للإشراف (Supervised Fine-Tuning - [SFT](/tag/sft)) وتحسين [التفضيلات](/tag/التفضيلات) المباشرة (Direct Preference [Optimization](/tag/optimization) - [DPO](/tag/dpo)) تواجه قيودًا. حيث يقوم [SFT](/tag/sft) عادةً بتحويل [التغذية الراجعة](/tag/[التغذية](/tag/التغذية)-الراجعة) المتدرجة إلى إشراف ثنائي، بينما يعتمد [DPO](/tag/dpo) على [بيانات تفضيل](/tag/[بيانات](/tag/بيانات)-تفضيل) مرتبطة غالبًا ما تكون غير متاحة أو مكلفة لتكوينها.

تُقدم دراستنا الجديدة مفهوم [التعلم](/tag/التعلم) الخاضع للأهداف (Goal-Conditioned Supervised Learning - GCSL) كإطار [عمل](/tag/عمل) مبتكر ويُسرق في [تحسين](/tag/تحسين) [نماذج [اللغات](/tag/اللغات) الضخمة](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)-الضخمة). الفكرة الأساسية هي اعتبار [إشارات](/tag/إشارات) [التغذية الراجعة](/tag/[التغذية](/tag/التغذية)-الراجعة) كهدف واضح وتدريب النموذج، فقط من خلال [التعلم](/tag/التعلم) الخاضع للإشراف، لتوليد ردود [تحقق](/tag/تحقق) ذلك الهدف.

للاستفادة بشكل أفضل من [التغذية الراجعة](/tag/[التغذية](/tag/التغذية)-الراجعة) المتدرجة، نقدم صياغة جديدة للأهداف تُعرّف [التعلم](/tag/التعلم) على أنه متابعة مخرجات تتجاوز عتبة جودة مستهدفة، بدلاً من تقليد عينات من مجموعة مختارة ذات جودة عالية. يهدف هذا [التصميم](/tag/التصميم) إلى تخفيف آثار [التعلم](/tag/التعلم) المحدود لدى [SFT](/tag/sft) وGCSL الكلاسيكي من خلال [توجيه النموذج](/tag/[توجيه](/tag/توجيه)-النموذج) بشكل صريح [نحو](/tag/نحو) [التعلم](/tag/التعلم) بالتقدم الجهوي للجودة.

كما نقترح [تمثيلات](/tag/تمثيلات) الأهداف بلغة طبيعية لتعزيز القدرات الفهمية والاستدلالية لنماذج [اللغات](/tag/اللغات) الضخمة. أجرينا [تقييمات](/tag/تقييمات) لطريقتنا الجديدة على ثلاث مهام: [توليد](/tag/توليد) [نص](/tag/نص) غير سام، [توليد](/tag/توليد) كود، ونماذج [لغات](/tag/لغات) كبيرة لتوصيات. أظهرت النتائج أن نهجنا يتفوق بلا منازع على الأساليب التقليدية لتحسين الأداء، بينما يحتفظ في نفس الوقت بكفاءة وسهولة متطلبات [البيانات](/tag/البيانات) الخاصة بالتعلم الخاضع للإشراف.