في ظل التطور المتسارع في تقنيات الذكاء الاصطناعي، بدأت نماذج اللغة الكبيرة (LLMs) تعمل كعملاء مستقلين قادرة على التفكير والتفاعل مع واجهات برمجة التطبيقات (APIs) لأداء مهام معقدة. ومع ذلك، لا تزال موثوقية هذه النماذج واختلافاتها تحتاجان إلى تفسيرات أكثر عمقًا.

تقدم دراسة جديدة إطارًا موحدًا لتقييم تباين نماذج اللغة الكبيرة في التواصل، حيث يُعرّف التباين بأنه مدى اختلاف النماذج في اكتشاف وتصنيف واجهات برمجة التطبيقات تحت مهام متطابقة. تم اختبار 15 مجالًا رئيسيًا من واجهات APIs و5 عائلات نموذجية رئيسية، وتم قياس التوافق بين النماذج باستخدام مقاييس تعتمد على التوافق، بما في ذلك Overlap المتوسط، وتشابه Jaccard، والتداخل المعتمد على الترتيب.

أظهرت النتائج وجود توافق معتدل بشكل عام (AO حوالي 0.50، tau حوالي 0.45)، لكن هناك اعتماد قوي على المجال: حيث تكون المهام المنتجات مثل الطقس وتحويل الكلام إلى نص مستقرة، بينما تظهر المهام مفتوحة النهاية مثل تحليل المشاعر تباينًا أعلى بكثير.

كشفت تحليلات تقلب وتوافق النتائج أن التناسق يتجمع حول مجالات البيانات ولكن يتدهور في مهام التفكير المجرد. يوفر هذا الفهم رؤى قيمة لتحسين التنسيق في أنظمة متعددة الوكلاء، حيث يمكن أن يؤدي وزن التوافق إلى تحسين التعاون بين نماذج اللغة الكبيرة المتنوعة.

أكثر من ذلك، تكشف نتائج الدراسة عن أنماط فشل منهجية في تنسيق نماذج اللغة الكبيرة المتعددة الوكلاء، حيث يمكن أن تخفي التوافق الظاهري عدم الاستقرار في التصنيفات المتعلقة بالعمل. تشكل هذه divergences المخفية خطرًا على السلامة قبل النشر، مما يحفز الحاجة إلى اختبارات تشخيصية للكشف المبكر.