في عالم الذكاء الاصطناعي، لطالما كانت نماذج اللغة الضخمة (Large Language Models - LLMs) قادرة على أداء مهام معقدة في اتخاذ القرارات المتسلسلة. ومع ذلك، تبقى تلك النماذج تفاعلية أساساً، مما يعني أنها لا تستطيع التخطيط على المدى الطويل كما يفعل البشر. البشر يستخدمون استراتيجية "ماذا لو" لتقييم الخطط المحتملة قبل اتخاذ القرار، بينما تفتقر النماذج القياسية إلى نموذج داخلي للعالم (World Model) يُمكّنها من محاكاة النتائج المستقبلية.
ولهذا السبب، نقدم نموذجاً مبتكراً يهدف إلى تعزيز التخطيط القائم على الوعي بالمستقبل عبر تدريب نموذج تفعيلي واحد يقوم بتفصيل كل من التقدم المحتمل للحالة وتقدير النجاح المشروط بالخطة - وهو ما يعادل نصياً قيمة Q. من المهم ملاحظة أننا اكتشفنا فجوة بين القدرات الشكلية (Format-Capability Gap): حيث إن مجرد ضبط النماذج على نتائج الخطط خلال مرحلة ما بعد التدريب يؤدي إلى تقليد سطحي للبصيرة دون أساس تنبؤي حقيقي.
لجسر هذه الفجوة، نقدم نموذجاً تدريبياً من ثلاث مراحل: (i) تدريب وكيلي لنموذج العالم (World Model Agentic Mid-Training - WM-AMT) لحقن القدرات التنبؤية الكامنة في السياسة؛ (ii) هيكلة هذه القدرات المُحقنة باستخدام تدريب موجه حسب الشكل (Format-Eliciting SFT - FE-SFT)؛ و(iii) التعلم المعزز القائم على البصيرة (Foresight-Conditioned Reinforcement Learning - FC-RL) لتحسين معايرة وفائدة المحاكاة الناتجة.
تقييم نتائجنا على مهام البحث والتفكير الرياضي يظهر أن منهجيتنا تتفوق باستمرار على تحت معايير تدريب أخرى. تُظهر نتائجنا أن النمذجة الفعالة للعالم الداخلي في نماذج اللغة الضخمة تتطلب مسار تدريب يركز أولاً على القدرات لتحقيق بصيرة متوازنة ومُعتمدة.
تأسيس مستقبل واعد: نموذج تدريبي موحد لتخطيط نماذج العالم الذكية
لقد قدمت نماذج اللغة الضخمة (LLMs) تطورات ملحوظة في اتخاذ القرارات المتسلسلة، لكن كيف يمكن تحسين قدرتها على التخطيط المستقبلي؟ إليكم نموذج تدريبي مبتكر يعزز فعالية هذه الأنظمة الذكية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
