في عالم الذكاء الاصطناعي، تستخدم نماذج اللغة الكبيرة (Large Language Models) بشكل متزايد لتقييم المحتوى، مراجعة الأكواد، وتحليل البيانات. ولكن، هل تساءلت يومًا كيف يمكن لتاريخ المحادثات السابقة أن يؤثر على أحكام هذه النماذج؟ هذا ما أظهرته دراسة جديدة بعنوان "تأثير الرسائل المتراكمة على أحكام نماذج اللغة" (AMEL).
أجريت هذه الدراسة على أكثر من 75,898 استدعاءً عبر 11 نموذجًا من أربعة موفّرين (OpenAI، Anthropic، Google، ونماذج مفتوحة المصدر). وقد تم تقديم عناصر الاختبار نفسها في عزلة أو بعد نقاشات مكثفة بتقييمات إيجابية أو سلبية.
نتائج الدراسة كانت مثيرة للدهشة، حيث لوحظ أن النماذج تميل إلى الانحياز نحو التعليقات السائدة في المحادثة السابقة. فمثلاً، عندما يكون هناك تاريخ من التقييمات السلبية، يزداد الانحياز بواقع 1.62 مرة مقارنةً بالتقييمات الإيجابية.
علاوة على ذلك، لم ينمو الانحياز مع تطويل سياق المحادثة، مما يشير إلى أن التأثير يمكن أن يظهر حتى مع خمسة أدوار سابقة في الحوار. وقد قدم الباحثون بعض الاقتراحات لتحسين خطط التقييم، مثل تقديم سياق جديد لكل عنصر أو موازنة التاريخ عند عدم إمكانية ذلك.
هذا الاكتشاف يدعو إلى إعادة التفكير في كيفية استخدام نماذج اللغة الكبيرة في البيئات العملية وكيف يمكن تقليل الانحياز الذي قد يترتب عن تاريخ المحادثات. هل تؤيدون فكرة تحسين طرق التقييم لنماذج الذكاء الاصطناعي؟ شاركونا آراءكم وأفكاركم في التعليقات.
تأثير الرسائل المتراكمة: كيف تؤثر المحادثات السابقة على تقييم نماذج اللغة؟
كشفت دراسة حديثة أن تاريخ المحادثات السابقة يمكن أن يؤثر بشكل كبير على أحكام نماذج اللغة، مما يطرح تساؤلات حول كيفية تقييم هذه النماذج. يحمل هذا الاكتشاف implications مهمة لممارسات الذكاء الاصطناعي والتقييم الآلي.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
