في عالم الذكاء الاصطناعي، تأتي [نماذج [اللغات](/tag/اللغات) الضخمة](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)-الضخمة) (Large Language [Models](/tag/models) - [LLMs](/tag/llms)) كأحد [الأدوات](/tag/الأدوات) الأكثر تأثيرًا في [التواصل](/tag/التواصل) وفهم [اللغة](/tag/اللغة). ومع ذلك، غالبًا ما يتطلب استخدامها تحسينًا مستمرًا لتوافق سلوكها مع [نوايا المستخدمين](/tag/[نوايا](/tag/نوايا)-المستخدمين) عند نشرها. تتنوع الطُرق المُستخدمة لتلك التحسينات، لكن يمكن تقسيمها إلى فئتين رئيسيتين: الطرق المتصلة بالإنترنت (online) والطرق غير المتصلة (offline).
تكمن المشكلة في أن الأساليب المتصلة، مثل [تحسين](/tag/تحسين) [العلاقات](/tag/العلاقات) المعتمد على التعزيز ([Reinforcement Learning](/tag/reinforcement-learning)-based alignment)، قد تُقدم جودة نتائج مباشرة ولكنها تعتمد غالبًا على [نماذج](/tag/نماذج) [مكافأة](/tag/مكافأة) خارجية وتكرارات مُعقدة، مما يجعلها مكلفة وصعبة التنفيذ في العديد من الحالات.
على الجانب الآخر، تُعد الطرق غير المتصلة أكثر كفاءة، لكن الطرق السائدة مثل [التعلم](/tag/التعلم) الخاضع للإشراف (Supervised Fine-Tuning - [SFT](/tag/sft)) وتحسين [التفضيلات](/tag/التفضيلات) المباشرة (Direct Preference [Optimization](/tag/optimization) - [DPO](/tag/dpo)) تواجه قيودًا. حيث يقوم [SFT](/tag/sft) عادةً بتحويل [التغذية الراجعة](/tag/[التغذية](/tag/التغذية)-الراجعة) المتدرجة إلى إشراف ثنائي، بينما يعتمد [DPO](/tag/dpo) على [بيانات تفضيل](/tag/[بيانات](/tag/بيانات)-تفضيل) مرتبطة غالبًا ما تكون غير متاحة أو مكلفة لتكوينها.
تُقدم دراستنا الجديدة مفهوم [التعلم](/tag/التعلم) الخاضع للأهداف (Goal-Conditioned Supervised Learning - GCSL) كإطار [عمل](/tag/عمل) مبتكر ويُسرق في [تحسين](/tag/تحسين) [نماذج [اللغات](/tag/اللغات) الضخمة](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)-الضخمة). الفكرة الأساسية هي اعتبار [إشارات](/tag/إشارات) [التغذية الراجعة](/tag/[التغذية](/tag/التغذية)-الراجعة) كهدف واضح وتدريب النموذج، فقط من خلال [التعلم](/tag/التعلم) الخاضع للإشراف، لتوليد ردود [تحقق](/tag/تحقق) ذلك الهدف.
للاستفادة بشكل أفضل من [التغذية الراجعة](/tag/[التغذية](/tag/التغذية)-الراجعة) المتدرجة، نقدم صياغة جديدة للأهداف تُعرّف [التعلم](/tag/التعلم) على أنه متابعة مخرجات تتجاوز عتبة جودة مستهدفة، بدلاً من تقليد عينات من مجموعة مختارة ذات جودة عالية. يهدف هذا [التصميم](/tag/التصميم) إلى تخفيف آثار [التعلم](/tag/التعلم) المحدود لدى [SFT](/tag/sft) وGCSL الكلاسيكي من خلال [توجيه النموذج](/tag/[توجيه](/tag/توجيه)-النموذج) بشكل صريح [نحو](/tag/نحو) [التعلم](/tag/التعلم) بالتقدم الجهوي للجودة.
كما نقترح [تمثيلات](/tag/تمثيلات) الأهداف بلغة طبيعية لتعزيز القدرات الفهمية والاستدلالية لنماذج [اللغات](/tag/اللغات) الضخمة. أجرينا [تقييمات](/tag/تقييمات) لطريقتنا الجديدة على ثلاث مهام: [توليد](/tag/توليد) [نص](/tag/نص) غير سام، [توليد](/tag/توليد) كود، ونماذج [لغات](/tag/لغات) كبيرة لتوصيات. أظهرت النتائج أن نهجنا يتفوق بلا منازع على الأساليب التقليدية لتحسين الأداء، بينما يحتفظ في نفس الوقت بكفاءة وسهولة متطلبات [البيانات](/tag/البيانات) الخاصة بالتعلم الخاضع للإشراف.
تحسين نماذج اللغات الضخمة عبر التعلم الخاضع للأهداف: ثورة في دقة الأداء!
تقدم أحدث الأبحاث في مجال الذكاء الاصطناعي إطار عمل جديد لتحسين نماذج اللغات الضخمة (LLMs) من خلال التعلم الخاضع للأهداف (GCSL)، مما يعزز دقة الأداء بطرق مبتكرة. هذا التطور يعد تغييرًا كبيرًا في كيفية تعامل النماذج مع بيانات التغذية الراجعة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
