في عالم الذكاء الاصطناعي المتسارع، تبرز نماذج اللغات الضخمة (LLMs) كأداة رئيسية لتقييم النصوص بشكل أوتوماتيكي، معتمدة على الأحكام المقارنة بين النصوص. ولكن، هل يمكن الوثوق بهذه النماذج كقضاة؟

تعاني نماذج (LLMs) حالياً من فجوات كبيرة في الأداء عند التعامل مع مهام وأساليب تقييم متعددة، مما يؤدي إلى تفشي التحيز في نقاط المقارنة وعدم الاتساق في الأحكام. كما أن غالبية الطرق الحالية تستند إلى قضاة فرديين أو تجمعات قضاة دون مراعاة موثوقيتهم، مما يُخرجنا من دائرة الثقة.

للتغلب على هذه التحديات، تم تطوير نموذج جديد باسم BT-sigma، والذي يعد بديلاً ذكياً يعتمد على نموذج Bradley-Terry. هذا النموذج يقدم معلمات خاصة لكل قاضٍ، مما يساعد في استنتاج ترتيب العناصر وموثوقية القاضي من المقارنات الثنائية فقط.

أظهرت التجارب على مجموعات بيانات تقييم النصوص أنه متى ما تم تطبيق نموذج BT-sigma، يؤدي دومًا إلى نتائج أفضل مقارنة بأساليب التجميع التقليدية، حيث يظهر أن المعلمات المتعلمة تتوافق بشكل كبير مع مقاييس مستقلة للاتساق في الأحكام.

بذلك، يمكن اعتبار BT-sigma آلية موثوقة للتقييم غير المراقب، مما يزيد من دقة التجميع عن طريق نمذجة موثوقية القضاة. كيف سيكون مستقبل تقييم النصوص مع استمرار هذه التطورات؟ هل تظنون أن الذكاء الاصطناعي يمكن أن يحل محل القضاة البشريين؟ شاركونا آراءكم في التعليقات!