في عالم الذكاء الاصطناعي المتسارع، تعتبر الأنظمة متعددة العوامل (Multi-Agent Systems) واحدة من الأفق الجديدة التي تفتح أبواباً للابتكار والتطوير. لكن، رغم التقدم الكبير في نماذج اللغات الكبيرة (Large Language Models) التي تُستخدم كأساس لهذه الأنظمة، إلا أن فعالية هذه النماذج ترتبط بشكل كبير بتصميم التنسيق (Orchestration Design).
التصميم الجيد يشمل العديد من العناصر مثل تصميم الأدوار (Role Design)، وتوزيع السعات (Capacity Assignment)، وبناء التبعيات (Dependency Construction)، مما يُؤثر سلبًا أو إيجابًا على جودة الحل وكفاءة التنفيذ. ومع أن الأساليب الحالية تستند إلى أتمتة أجزاء من هذه العملية، إلا أنها غالبًا ما تركز على تحسين جزئي أو متسلسل، وتعتمد على ملاحظات تنفيذية تسمح بتقييم محدود للقرارات التنسيقية المحلية.
هنا يأتي الابتكار المتمثل في مشروع LEMON، الذي يرمز إلى (Learning Executable Multi-agent Orchestration via Counterfactual Reinforcement Learning). يُمثل LEMON منسقًا يعتمد على نماذج اللغات الكبيرة، حيث يُنتج مواصفات تنسيق قابلة للتنفيذ. هذه المواصفات تجمع بين أدوار محددة ترتبط بالمهام، ومسؤوليات مخصصة، ومعدلات سعة، وهياكل اعتمادية في نظام واحد قابل للتطبيق.
لتدريب هذا المنسق، تمت إضافة هدف GRPO على مستوى التنسيق (Orchestration-Level) باستخدام إشارة معاكس محلية (Localized Counterfactual Signal) تعدل مجالات الدور أو السعة أو الاعتماد، وتطبق مكافآت التجارب المولدة فقط على الأجزاء المعدلة.
تظهر التجارب على ستة معايير من مهام الاستدلال والبرمجة، تشمل MMLU و GSM8K و AQuA و MultiArith و SVAMP و HumanEval، أن LEMON حقق الأداء الرائد في أساليب تنسيق الأنظمة متعددة العوامل المدروسة. يمكنكم أيضًا الاطلاع على الكود المصدري المتاح على [الرابط الرسمي](https://anonymous.4open.science/r/LEMON-B23C) لمعرفة المزيد عنها.
LEMON: ثورة في تنسيق الأنظمة متعددة العوامل باستخدام التعلم المعزز المعاكس!
تقدم LEMON أسلوبًا مبتكرًا لتنظيم الأنظمة متعددة العوامل، مدمجًا التعلم المعزز لتحسين الأداء والكفاءة. اكتشف كيف يمكن لهذا النظام أن يعيد تعريف تنسيق المهام المعقدة!
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
