في عالم الذكاء الاصطناعي، تأتي نماذج اللغات الضخمة (Large Language Models - LLMs) كأحد الأدوات الأكثر تأثيرًا في التواصل وفهم اللغة. ومع ذلك، غالبًا ما يتطلب استخدامها تحسينًا مستمرًا لتوافق سلوكها مع نوايا المستخدمين عند نشرها. تتنوع الطُرق المُستخدمة لتلك التحسينات، لكن يمكن تقسيمها إلى فئتين رئيسيتين: الطرق المتصلة بالإنترنت (online) والطرق غير المتصلة (offline).
تكمن المشكلة في أن الأساليب المتصلة، مثل تحسين العلاقات المعتمد على التعزيز (Reinforcement Learning-based alignment)، قد تُقدم جودة نتائج مباشرة ولكنها تعتمد غالبًا على نماذج مكافأة خارجية وتكرارات مُعقدة، مما يجعلها مكلفة وصعبة التنفيذ في العديد من الحالات.
على الجانب الآخر، تُعد الطرق غير المتصلة أكثر كفاءة، لكن الطرق السائدة مثل التعلم الخاضع للإشراف (Supervised Fine-Tuning - SFT) وتحسين التفضيلات المباشرة (Direct Preference Optimization - DPO) تواجه قيودًا. حيث يقوم SFT عادةً بتحويل التغذية الراجعة المتدرجة إلى إشراف ثنائي، بينما يعتمد DPO على بيانات تفضيل مرتبطة غالبًا ما تكون غير متاحة أو مكلفة لتكوينها.
تُقدم دراستنا الجديدة مفهوم التعلم الخاضع للأهداف (Goal-Conditioned Supervised Learning - GCSL) كإطار عمل مبتكر ويُسرق في تحسين نماذج اللغات الضخمة. الفكرة الأساسية هي اعتبار إشارات التغذية الراجعة كهدف واضح وتدريب النموذج، فقط من خلال التعلم الخاضع للإشراف، لتوليد ردود تحقق ذلك الهدف.
للاستفادة بشكل أفضل من التغذية الراجعة المتدرجة، نقدم صياغة جديدة للأهداف تُعرّف التعلم على أنه متابعة مخرجات تتجاوز عتبة جودة مستهدفة، بدلاً من تقليد عينات من مجموعة مختارة ذات جودة عالية. يهدف هذا التصميم إلى تخفيف آثار التعلم المحدود لدى SFT وGCSL الكلاسيكي من خلال توجيه النموذج بشكل صريح نحو التعلم بالتقدم الجهوي للجودة.
كما نقترح تمثيلات الأهداف بلغة طبيعية لتعزيز القدرات الفهمية والاستدلالية لنماذج اللغات الضخمة. أجرينا تقييمات لطريقتنا الجديدة على ثلاث مهام: توليد نص غير سام، توليد كود، ونماذج لغات كبيرة لتوصيات. أظهرت النتائج أن نهجنا يتفوق بلا منازع على الأساليب التقليدية لتحسين الأداء، بينما يحتفظ في نفس الوقت بكفاءة وسهولة متطلبات البيانات الخاصة بالتعلم الخاضع للإشراف.
تحسين نماذج اللغات الضخمة عبر التعلم الخاضع للأهداف: ثورة في دقة الأداء!
تقدم أحدث الأبحاث في مجال الذكاء الاصطناعي إطار عمل جديد لتحسين نماذج اللغات الضخمة (LLMs) من خلال التعلم الخاضع للأهداف (GCSL)، مما يعزز دقة الأداء بطرق مبتكرة. هذا التطور يعد تغييرًا كبيرًا في كيفية تعامل النماذج مع بيانات التغذية الراجعة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
