تتزايد أهمية نماذج اللغة الكبيرة (Large Language Models) في مجالات متعددة، حيث تُظهر قدرة استثنائية على التفكير والاستدلال بفضل أسلوب سلسلة الأفكار (Chain-of-Thought). ومع ذلك، فإن هذا النوع من النماذج يعاني من عيوب متعلقة بالتخطيط، حيث يتم اتخاذ قرارات محلية على مستوى الرموز، مما يؤدي في بعض الأحيان إلى استنتاجات غير دقيقة أو مكررة.
لمعالجة هذه التحديات، تم تطوير منهجية جديدة تُعرف باسم "التخطيط ثم التنفيذ" المعززة بتعلم التعزيز، والتي تهدف إلى تحسين التخطيط العالي المستوى واستدلال سلسلة الأفكار بشكل متزامن.
في المرحلة الأولى، تعمل النموذج على تلخيص استدلال سلسلة الأفكار إلى توجيهات عالية المستوى مركزة، ويتم استخدام هذه التوجيهات في ضبط شامل للنموذج.
ثم نقوم بتقديم طريقة تعلم تعزيز تركز على التوجيه، تعمل على تحسين كل من المخرجات النهائية وجودة التوجيه، مما يعزز فعالية الاستدلال.
لقد تم تقييم إطار العمل PTA-GRPO على عشرة معايير استدلالية تتعلق بالرياضيات والعلوم الطبيعية، مع استخدام خمسة نماذج أساسية متنوعة تغطي عدة أنماط بيانات. وقد أظهرت النتائج أن PTA-GRPO يحقق تحسينات ملحوظة عبر جميع النماذج والمهام، مما يبرز فعاليته وقابلية تعميمه في مجالات متعددة.
تخطيط ثم تنفيذ: تعزيز التخطيط العالي باستخدام تعلم التعزيز لنماذج اللغة الكبيرة
تقدم نماذج اللغة الكبيرة (LLMs) قدرات استدلالية قوية، لكن تواجه تحديات في التخطيط العالمي. نقدم إطار عمل جديد يُعزز التفكير من خلال تخطيط متكامل يضمن استدلالاً دقيقاً وفعّالاً.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
