في عالم الذكاء الاصطناعي، تحظى نماذج اللغات الكبيرة (Large Language Models) باهتمام متزايد، حيث تعتمد بشكل أساسي على التعلم المعزز (Reinforcement Learning) أو التحفيز متعدد الوكلاء (Multi-Agent Prompting) لتعزيز قدراتها العقلية. إلا أن دمج هذين النظامين يبقى أمرًا صعبًا. إذ تواجه الأنظمة ذات الوكلاء المتعددين معضلات متعددة عند تنفيذ التعلم المعزز الخاص بالوكلاء الفرديين، مثل المكافآت الضئيلة وحرية الركوب الزائد، مما يؤدي إلى زيادة الأعباء التدريبية.

هنا يأتي دور TRACER، وهو إطار جديد يعمل على تعزيز التعاون في النماذج اللغوية الكبيرة. يقوم TRACER بفصل اتخاذ القرار التعاوني إلى طبقة للتحكم وطبقة لتقدير النجاح، حيث يتعلم المتحكمون متى يجب على الوكلاء التحدث أو تخطي جولة معينة من خلال مطابقة الندم (Regret Matching). بينما تُستخدم المكافآت المحددة وفقًا للدور (Role-Specific GSPO Rewards) لتحسين الكلمات المنطوقة من قبل المقترحين والمراجعين.

هذا التصميم المبتكر يجعل TRACER يوزع الائتمان على مستوى كل من أساليب العمل والتعبيرات المنطوقة، مما يجنبنا مشكلة حرية الركوب ويسهم في زيادة مكافآت التدريب. نتيجة لذلك، يُمكن للوكلاء اكتساب القدرات التعاونية مع تعلمهم لمتى يتحدثون وماذا يقولون.

علاوة على ذلك، من خلال تصميم ردود فعل ثنائية بشكل ذكي، نوسع نظرية الألعاب الكلاسيكية لتشمل التعلم العميق، مما يحقق تقاربًا رياضيًا دقيقًا. عُقدت اختبارات على نماذج العمل المحلي بأسلوب التعلم المعزز باستخدام تقسيم تدريب GSM8K، وتقييم أدائها عبر معايير المختلفة مثل الدقة والتكلفة والسلوك التصحيحي.

يستمر TRACER في دعم مجتمع الذكاء الاصطناعي كأداة بحثية فعالة لدراسة سياسات التعاون المكتسبة، بعيدا عن بروتوكولات النقاش الثابتة أو التصويت. يمكنكم الوصول إلى الكود المصدري لهذه التقنية عبر GitHub. كيف تظنون أن هذه التكنولوجيا ستؤثر على مستقبل الذكاء الاصطناعي؟ شاركونا رأيكم في التعليقات.