في عصر الذكاء الاصطناعي المتقدم، تقدم الأبحاث الرائدة خطوات مذهلة نحو تعزيز قدرات نماذج اللغات الكبيرة (Large Language Models) في توليد الأكواد من صياغات اللغة الطبيعية. تتناول الأبحاث الأخيرة على نماذج كود الألعاب (Code World Models) كيفية تحويل قواعد الألعاب إلى أكواد برمجية بلغة بايثون، يمكن لمفكري القرارات مثل خوارزميات البحث بالتفرع مونت كارلو (Monte Carlo Tree Search) التعامل معها.
تستكشف هذه الدراسة الابتكارية جوانب تتعلق بكيفية إنشاء نماذج أكواد الألعاب (Game Code World Models - GameCWMs)، والتي تتطلب من البيئات المولدة تضمين قواعد اللعبة والإجراءات القانونية والانتقالات الحالة والملاحظات والمكافآت. ومع ذلك، تواجه الطرق الحالية في توليد نماذج العالم البرمجي تحديات في الوصول إليها وتوسيع نطاقها، إذ تعتمد على نماذج حدودية (Frontier Models) ودورات تحسين في وقت الاستدلال.
في هذا البحث، ندرس إمكانية تقطير (Distilling) قدرات توليد الـ GameCWM إلى نماذج أصغر عن طريق ما بعد التدريب. نقدم أولاً مجموعة بيانات مُنسقة تضم 30 لعبة متنوعة تشمل الألعاب ذات المعلومات الكاملة وغير الكاملة. ثانيًا، نضع إطار عمل للتحقق يقيم الأكواد المُولدة وفقًا للخصائص الهيكلية والدلالية للألعاب. ثالثًا، نقدم عملية ما بعد التدريب التي تجمع بين التقنية الدقيقة الخاضعة للإشراف (Supervised Fine-Tuning - SFT) والتعلم المعزز مع مكافآت قابلة للتحقق (Reinforcement Learning with Verifiable Rewards - RLVR).
أجرينا تجارب باستخدام نموذج Qwen2.5-3B-Instruct، واكتشفنا أن تقنية SFT يمكن أن تعزز من صحة التركيب اللغوي، في حين يمكن أن يُحسن RLVR من الالتزام بقواعد اللعبة على مستوى التنفيذ. وبالتالي، يتحسن نموذج Qwen في قدرته على إنشاء نماذج GameCWM صالحة في كل من الألعاب ذات المعلومات الكاملة وغير الكاملة. بفضل هذه الط pipeline، يصبح Qwen2.5-3B-Instruct أكثر قدرة على توليد نماذج GameCWM، مما يوفر مسارًا قابلًا للتوسع نحو إنشاء بيئات أوتوماتيكية من اللغة الطبيعية.
ثورة في نماذج الألعاب: كيفية تحويل كود الألعاب إلى نماذج لغوية خفيفة الوزن
تبتكر الأبحاث الجديدة في الذكاء الاصطناعي نماذج قادرة على توليد الأكواد التنفيذية من أوصاف بسيطة، مما يمهد الطريق لإنشاء بيئات ألعاب أوتوماتيكية. تقدم هذه الدراسة نموذجًا جديدًا مبنيًا على نماذج لغوية كبيرة لتوليد نماذج ألعاب قابلة للتنفيذ.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
