في عالم الذكاء الاصطناعي، يُعتبر التعلم المعزز القابل للتحقق (RLVR) نقطة تحول هامة تساهم في تحسين القدرة على التفكير في نماذج اللغة الضخمة (LLMs). ومع ذلك، تواجه هذه التقنية تحديًا كبيرًا في ما يتعلق بتحديد المكافآت على مستوى الرموز، حيث إن النتائج النادرة تجعل من الصعب تحديد مصدر المكافآت.
إن دراسة مكافآت الرموز تتطلب فهم التحول الموجه من سياسة السلوك إلى ما يسمى بالاحتمالية المرتبطة بالتجارب السابقة. في التعلم الذاتي المعزز (autoregressive RLVR)، يمكن التعبير عن هذا التحول من خلال مفهوم المعلومات الشرطية المتبادلة (Conditional Mutual Information - CMI)، مما يُظهر كيف أن شغف الرموز يُحدد الحد الأقصى للمكافآت اللاحقة.
ومع ذلك، تشير الشغف فقط إلى السعة وليست اتجاه التحديث، لذا بدأنا بتقديم "تحليل الرباعي" (Four Quadrant Decomposition) لفصل التحديثات حسب قطبية المكافأة وشغف الرموز. أظهرت التجارب أن هذين العاملين يشكلان تحديثات الرموز بشكل مشترك، حيث تركز المكاسب المستدامة في التفكير في الأرباع ذات الشغف العالي، بينما تلهث التحديثات ذات الشغف المنخفض بسرعة.
استنادًا إلى هذه التحليلات، نقترح "تحسين السياسة المجهّز بالتجربتين الماضية" (Hindsight-Aware Policy Optimization - HAPO)، وهو تعديل يحافظ على العلامات الموجهة ويؤدي إعادة توزيع المزايا بالطاقة. أظهرت التجارب على مقاييس التفكير الرياضي في إعدادين نموذجيين أن HAPO يحقق أداءً تنافسيًا بين الأساسيات المعتمدة على الشغف.
تحليل عميق حول كيف يمكن أن تسهم المكافآت المرتبطة بالتجارب السابقة في تحديثات الرموز في التعلم المعزز
تُعد مكافآت التعلم المعزز القابلة للتحقق (RLVR) مفتاحًا لتحسين قدرة نماذج اللغة الضخمة (LLMs) على التفكير. من خلال تحليل مكافآت الرموز، نكشف عن كيفية تأثير مفاهيم مثل المعلومات الشرطية والشغف الرمزي على تحديثات الأداء.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
