في السعي لتحقيق تحسينات نوعية في نماذج الذكاء الاصطناعي، تمثل الدراسة الأخيرة خطوات هامة نحو استخدام أساليب جديدة تسهم في تعزيز التفكير والتفهم. يعد نموذج التعلم العكسي من أبرز هذه الأساليب، حيث يسعى لاستغلال التجارب البشرية في عملية التعليم.
تعتمد الطرق الحالية لتحسين القدرة على الاستدلال في نماذج اللغات الضخمة (LLMs) بشكل أساسي على أسلوبين: التخصيص بالإشراف (Supervised Fine-Tuning - SFT) أو التعلم المعزز (Reinforcement Learning - RL) مع مكافآت قائمة على النتائج. وفي الوقت الذي يعتمد فيه SFT على التقليد، تفترض أساليب التعلم المعزز توافر مدقق موثوق لتحديد قيمة النتائج. لذا، يظهر نموذج التعلم العكسي القائم على التحسين العدائي (Adversarial Inverse Reinforcement Learning - AIRL) كحل مبتكر يعالج هذه الثغرات.
يعتمد هذا النموذج على تعلم مكافآت الاستدلال مباشرةً من عروض الخبراء، ويقيم فعاليته عبر درجات مختلفة من المكافآت، سواء كانت متناثرة، أو بفترات زمنية، أو كثيفة. حيث يتحكم مستوى الدقة في عملية تخصيص المكافآت: فالمكافآت المتناثرة تركز على جودة المسار بشكل عام واستقرار التدريب، بينما توفر المكافآت الكثيفة إشرافاً أدق على مستوى الخطوات.
قد أظهرت النتائج أن المكافآت المستفادة من النموذج تقدم فائدة كبيرة بطرق متعددة. أولاً، كمؤشر على التدريب، تحسنت النتائج كثيرًا عن أسلوب SFT في مجالات مثل التفكير الطبي (MedReason) والرياضيات (GSM8K) والأسئلة العلمية المعقدة (MMLU-Pro). ثانيًا، تعمل كنظام إعادة ترتيب للنتائج أثناء الاستدلال، حيث ساهمت في زيادة تصل إلى 17.4% تحت ميزانية عينة ثابتة. ثالثًا، يمكن نقل المكافآت المكتسبة عبر مهام ونماذج مختلفة، مما يدل على أن جزءًا من الإشارات يمكن إعادة استخدامه في سياقات متنوعة.
تسلط هذه النتائج الضوء على قدرة AIRL على استرجاع خطوات استدلال وسيطة قابلة للاستخدام من العروض فقط، مما يمهد الطريق لتحقيق توازن بين التقليد النقي والتحسين المدفوع بالمكافآت.
ما رأيكم في هذه الطريقة الجديدة لتعليم نماذج الذكاء الاصطناعي؟ هل تعتقدون أنها ستحدث ثورة في هذا المجال؟ شاركونا في التعليقات!
نموذج التعلم العكسي: كيف نعلم نماذج الذكاء الاصطناعي التفكير من خلال تجارب الخبراء!
تقدم الدراسة الجديدة نموذج التعلم العكسي ليحدث ثورة في طرق تعليم نماذج اللغات الضخمة (LLMs) بشكل أكثر فعالية. باستخدام الاستدلال العكسي، يمكن للذكاء الاصطناعي أن يتعلم من التجارب البشرية بأسلوب أكثر دقة وكفاءة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
