في عالم الذكاء الاصطناعي، تتقدم الأنظمة المبنية على نماذج اللغات الكبيرة (Large Language Models) بسرعة، مع آمال كبيرة في أنها ستعزز من قدرة اتخاذ القرارات من خلال جمع المعلومات الموزعة. ولكن، رغم هذه التوقعات الوردية، تشير دراسة جديدة إلى وجود عوائق كبيرة تعيق هذا المسار.

تقدم الدراسة، التي تحمل عنوان "HiddenBench"، معياراً يتكون من 65 مهمة مُعتمِدة على نموذج "Hidden Profile"، والذي يهدف إلى عزل القدرة على التفكير الجماعي في ظل المعلومات الموزعة مقارنة بالقدرة على التفكير الفردي. وبالفعل، أثبتت النتائج أن نماذج اللغات الكبيرة العاملة في نظام متعدد الوكلاء حققت دقة 30.1% فقط عند التعامل مع معلومات موزعة، مقارنةً بدقة 80.7% للوكيل الفردي الذي يعمل بمعلومات كاملة.

تشير هذه النتائج إلى ظاهرة فشل منهجي: الوكلاء لا يستطيعون التعرف أو العمل تحت عدم التكافؤ في المعلومات، حيث يفشلون في التفكير فيما قد يعرفه الآخرون لكن لم يعبروا عنه بعد. وفي الوقت الذي تتدفق فيه الأدلة المشتركة بشكل مبكر، تبقى الحقائق الحرجة غير المستكشفة. هذه التحديات تستمر عبر استراتيجيات التنبيه وعمق التواصل وأحجام المجموعات، بل وتزداد سوءاً كلما زادت أحجام المجموعات.

وعلى الرغم من تفوق بعض النماذج في الأداء، مثل Gemini-2.5-Flash/Pro، إلا أنه لم يكن هناك علاقة قوية بين حجم النموذج أو دقة التفكير الفردي والأداء الجماعي. لكن الجانب المشجع هنا هو أن هناك أمل؛ حيث أظهرت الدراسة أن بروتوكول تواصل هيكلي بسيط يمكن أن يحسن من التفكير الجماعي عبر عائلات النماذج المختلفة.

في النهاية، تكشف هذه النتائج عن نقص كبير في استكشاف المعلومات الجماعية أثناء اتخاذ القرار، مما يُمثل تحدياً رئيسياً لنماذج اللغات الكبيرة متعددة الوكلاء. وتوفر الدراسة إطار عمل يمكن الاعتماد عليه ليلقي الضوء على هذه المشاكل ويُلهم الباحثين لتطوير حلول مماثلة.