تقييم نماذج اللغة: كيف يختلف تفضيل المستخدمين؟

في عصر نماذج اللغات الضخمة (LLMs)، يصبح من الضروري تقييم توافق هذه النماذج مع تفضيلات الأفراد. دراسة جديدة تقترح معايير تقييم شخصية تُظهر كيف تختلف اختيارات النماذج اعتمادًا على اهتمامات المستخدمين.

تزايدت قدرات نماذج اللغات الضخمة (LLMs) بشكل ملحوظ، مما جعل استخدامها في المهام الواقعية ضرورة ملحة. لكن، يبقى التحدي الأكبر الذي يواجه الباحثين هو كيفية تقييم توافق هذه النماذج مع تفضيلات المستخدمين البشرية. في الوقت الراهن، تعتمد المعايير المتاحة على متوسط تفضيلات جميع المستخدمين، مما يتجاهل احتياجات الأفراد الخاصة.

ومع الاختلافات الكبيرة في تفضيلات المستخدمين، بدأت دراسات جديدة تدعو لضرورة تطوير معايير تقييم شخصية (Personalized Benchmarking) تقوم بترتيب النماذج حسب الاحتياجات الخاصة بكل مستخدم. قامت مجموعة من الباحثين باستخدام تصنيفات ELO ومعاملات Bradley-Terry لتحليل تفضيلات 115 مستخدمًا نشطًا في ساحة الدردشة (Chatbot Arena).

وجد الباحثون أن المراتب الفردية لنماذج اللغات تختلف بشكل كبير عن التقييمات المجمعّة، حيث أظهرت تحليل النتائج متوسط ارتباط يبلغ فقط 0.04 (57% من المستخدمين يظهرون ارتباط قريب من الصفر أو سلبي). بينما تصنيفات ELO قدمت ارتباطًا معتدلاً بقيمة 0.43.

عبر استخدام تحليل الموضوعات وأسلوب الكتابة، تم التعرف على التنوع الكبير بين اهتمام المستخدمين وأنماط التواصل، مما يؤثر بشكل مباشر على تفضيلاتهم للنماذج. وقد وجدت الدراسة أنه من خلال دمج مميزات الموضوع والأسلوب يمكننا توقع المراتب الشخصية للنماذج بدقة أكبر.

تلقي هذه النتائج الضوء على حاجة ماسة لتطوير معايير تقييم شخصية؛ لضمان أن تعكس تقييمات نماذج اللغة الضخمة تفضيلات الأفراد بدلاً من الاعتماد فقط على التقييمات المجمعّة التي قد تفوت احتياجات كثير من المستخدمين.

تقييم نماذج اللغة: كيف يختلف تفضيل المستخدمين؟

📰 أخبار ذات صلة

جوجل تُحوّل كروم إلى زميل ذكاء اصطناعي ثوري لتحسين بيئة العمل!

ثورة الذكاء الاصطناعي: كيف يعيد اكتشاف الثغرات الأمنية تقليص تكاليف الأمان في المؤسسات؟

موزيلا تُحدث ثورة في أمان فايرفوكس بفضل كفاءة نموذج Claude Mythos!