في عصر التكنولوجيا المتقدمة، أصبحت الأنظمة الآلية تُستخدم بشكل متزايد لتقييم أصالة الأفكار في مهام الإبداع. وقد أظهرت الأبحاث الأخيرة تحديات في هذا المجال، بما في ذلك التحيز الذاتي الذي تعاني منه هذه الأنظمة. في دراسة جديدة، تم تحليل كيف تتفق نماذج اللغات الضخمة (Large Language Models) مع المقيمين البشريين عند تقييم الأصالة في مهام التفكير المتباين.

أجريت الدراسة على 4,813 رداً في مهمة الاستخدامات البديلة (Alternate Uses Task)، التي تم إنتاجها من قبل بشر يتمتعون بمستويات مختلفة من الإبداع، بالإضافة إلى النموذج الشهير ChatGPT-4o. تم تدريب مقيمين بشريين على مدى فترة طويلة لضمان دقة تقييمهم، بينما استخدمت الأنظمة الميكانيكية (Machine Raters) نظم متخصصة تم تدريبها على بيانات الاستجابة البشرية.

أشارت النتائج إلى وجود تحيز ذاتي في نماذج اللغات الضخمة، حيث كانت تفضل الردود الاصطناعية على تلك البشرية. ومع ذلك، اختفى هذا التحيز عندما تم أخذ elaboration الأفكار بعين الاعتبار. تُظهر هذه النتائج أهمية ضبط المعايير عند تقييم الإبداع، مما يدعو الباحثين إلى استكشاف طرق جديدة لتحقيق تقييم أكثر موضوعية.

هل تعتقد أن الأنظمة الآلية يمكنها أن تتغلب على التحيزات الذاتية؟ شاركونا آراءكم في التعليقات!