في عصر المعلومات الضخمة، يعتمد عمل الوكالات الفيدرالية بشكل متزايد على نماذج اللغة الكبيرة (LLMs) لتصنيف تعليقات الجمهور. لكن، ماذا يحدث عندما تتباين نتائج هذه النماذج بشكل كبير؟ في دراسة حديثة طرحت على منصة arXiv، تم تقديم الحجج اللازمة لإعادة تقييم طريقة تحليل التعليقات العامة.

تُعتبر مهمة نماذج اللغة الكبيرة في تصنيف التعليقات أساسية، حيث تحدد طريقة تنظيم البيانات التي يتعرض لها صانعو السياسات، وبالتالي التأثير على القرارات التي تتخذ. ومع ذلك، تعتمد طرق التقييم التقليدية على دقة الموقف مقابل مجموعة صغيرة من البيانات المؤكدة، مما يعني أنها قد تفشل في التعرف على الاختلافات الجوهرية بين تصنيفات النماذج المختلفة لنفس المدخلات العامة.

قدم الباحثون إطاراً جديداً يُعرف بـ "نموذج التدقيق التفسيري"، الذي يتعامل مع الاختلاف بين النماذج كعلامة على التعقيد التفسيري، مما يوجه المراجعة البشرية نحو التعليقات العامة التي تحمل غموضًا حقيقياً. ومن خلال تحليل 1,260 تعليقًا على قضايا زراعية تتعلق بوزارة الزراعة الأمريكية (USDA)، اكتشف الباحثون أن الانحرافات الأدبية بين النماذج تفوق التباين الناتج عن الاختلاف في المدخلات.

في دراسة تحتوى على مرحلتين على مجموعة تتكون من 40 تعليقًا، تم استخدام أربع نماذج لغة كبيرة مع مدقق بشري. تباينت سلوكيات التعديل بين المدققين حيث قدم الإنسان سياقات لم تظهر في نتائج تصنيفات ensemble.

يكشف هذا البحث أهمية فهم الاختلافات بين النماذج كجزء من عملية التقييم، ويدعو إلى اعتماد طرق جديدة مكملة لمقاييس الدقة لتشمل عملية التعليم التفسيري المتعدد النماذج. بالتالي، يجب أن يكون من الواضح أن الاعتماد على توافق النماذج فقط دون معالجة اختلافاتها ليس كافياً لضمان الشفافية والدقة في إبداء الآراء العامة.