اكتشاف خوارزميات التعلم متعدد الوكلاء باستخدام نماذج اللغة الضخمة: ثورة جديدة في الذكاء الاصطناعي!

في عالم الذكاء الاصطناعي (AI)، يبرز التعلم المعزز متعدد الوكلاء (Multi-Agent Reinforcement Learning - MARL) كأحد الأكثر ابتكارًا وتحديًا. Historically, كانت مراحل التطور في هذا المجال تعتمد بشكل كبير على طرق التحسين اليدوية والتكرارية للخوارزميات الأساسية. لكننا نعيش الآن لحظة تحوّل، حيث أصبحت نماذج اللغة الضخمة (Large Language Models - LLMs) أدوات قوية تعزز من تجربة الكشف عن الخوارزميات الجديدة تلقائيًا.

في هذه الدراسة، تم استكشاف إطار عمل مبتكر يسمى AlphaEvolve، الذي يستخدم لاكتشاف تصميمات جديدة في مجالات الألعاب ذات النظرية المعقدة. اعتمدت البرمجة التطورية على نماذج LLMs لاستكشاف تصميم خوارزميات جديدة مثل تقليل الندم المضاد (Counterfactual Regret Minimization - CFR) وأوراكل استجابة فضاء السياسات (Policy-Space Response Oracles - PSRO). نتج عن هذا البحث خوارزميات جديدة: خوارزمية CFR المهيكلة مع احتساب التقلّب (Volatility-Adaptive Discounted CFR - VAD-CFR) وخوارزمية PSRO الهجينة المتوازنة (Smoothed Hybrid Optimistic Regret - SHOR-PSRO).

قدمت هذه الخوارزميات الجديدة أداء تنافسياً مع المعايير التي صممها البشر عبر 18 لعبة مختلفة مثل البوكر وLiar's Dice وغيرها. ومن خلال الدراسات المنهجية، تم التحقق من أن هذه الآليات المعقدة مترابطة بشكل وثيق، لكن القوة الحقيقية للعمليات العامة تكمن في جوهر خوارزمي بسيط. بعد تقليص اكتشافات LLMs إلى مبادئها الأساسية، نجح الباحثون في تطوير خوارزميات مصغرة: (Warm-started Optimistic Predictive - WOP-CFR) و (Projection Matching - PM-PSRO)، والتي قدمت أداءً متفوقاً مع تقليل التعقيد الهيكلي.

تتضح أهمية هذا البحث في أنه يفتح آفاقًا جديدة لكيفية استخدام نماذج LLMs في اكتشاف الخوارزميات، مما يوفر نهجًا واضحًا يمكن أن يغير مجرى أبحاث الذكاء الاصطناعي.

اكتشاف خوارزميات التعلم متعدد الوكلاء باستخدام نماذج اللغة الضخمة: ثورة جديدة في الذكاء الاصطناعي!

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

أين تكمن موثوقية نماذج الرؤية-اللغة؟ دراسة آلية تكشف خفايا الانتباه والدول المخفية

التوجيه المكاني يتفوق على التوجيه الدلالي: نهج جديد لتحسين دقة استخراج البيانات من الرسوم البيانية

ثورة في نماذج الذكاء الاصطناعي: كيف تعيد Auto-Rubric تشكيل معايير المكافآت!