تقييم نماذج اللغة: كيف يختلف تفضيل المستخدمين؟
🔬 أبحاث2 دقائق للقراءة👁 0 مشاهدة

تقييم نماذج اللغة: كيف يختلف تفضيل المستخدمين؟

في عصر نماذج اللغات الضخمة (LLMs)، يصبح من الضروري تقييم توافق هذه النماذج مع تفضيلات الأفراد. دراسة جديدة تقترح معايير تقييم شخصية تُظهر كيف تختلف اختيارات النماذج اعتمادًا على اهتمامات المستخدمين.

تزايدت قدرات نماذج اللغات الضخمة (LLMs) بشكل ملحوظ، مما جعل استخدامها في المهام الواقعية ضرورة ملحة. لكن، يبقى التحدي الأكبر الذي يواجه الباحثين هو كيفية تقييم توافق هذه النماذج مع تفضيلات المستخدمين البشرية. في الوقت الراهن، تعتمد المعايير المتاحة على متوسط تفضيلات جميع المستخدمين، مما يتجاهل احتياجات الأفراد الخاصة.

ومع الاختلافات الكبيرة في تفضيلات المستخدمين، بدأت دراسات جديدة تدعو لضرورة تطوير معايير تقييم شخصية (Personalized Benchmarking) تقوم بترتيب النماذج حسب الاحتياجات الخاصة بكل مستخدم. قامت مجموعة من الباحثين باستخدام تصنيفات ELO ومعاملات Bradley-Terry لتحليل تفضيلات 115 مستخدمًا نشطًا في ساحة الدردشة (Chatbot Arena).

وجد الباحثون أن المراتب الفردية لنماذج اللغات تختلف بشكل كبير عن التقييمات المجمعّة، حيث أظهرت تحليل النتائج متوسط ارتباط يبلغ فقط 0.04 (57% من المستخدمين يظهرون ارتباط قريب من الصفر أو سلبي). بينما تصنيفات ELO قدمت ارتباطًا معتدلاً بقيمة 0.43.

عبر استخدام تحليل الموضوعات وأسلوب الكتابة، تم التعرف على التنوع الكبير بين اهتمام المستخدمين وأنماط التواصل، مما يؤثر بشكل مباشر على تفضيلاتهم للنماذج. وقد وجدت الدراسة أنه من خلال دمج مميزات الموضوع والأسلوب يمكننا توقع المراتب الشخصية للنماذج بدقة أكبر.

تلقي هذه النتائج الضوء على حاجة ماسة لتطوير معايير تقييم شخصية؛ لضمان أن تعكس تقييمات نماذج اللغة الضخمة تفضيلات الأفراد بدلاً من الاعتماد فقط على التقييمات المجمعّة التي قد تفوت احتياجات كثير من المستخدمين.
المصدر:أركايف للذكاءاقرأ المصدر الأصلي ←
مشاركة:𝕏واتسابتيليجراملينكدإن

📰 أخبار ذات صلة