في عالم الذكاء الاصطناعي، أصبحت تقنيات تقييم النصوص تعتمد بشكل متزايد على نماذج لغوية ضخمة (Large Language Models) كشاهدين موثوقين على جودة المحتوى، لكن التوافق بين هذه النماذج والمعايير البشرية لا يزال يمثل تحدياً كبيراً.

قدمت دراسة جديدة تحت عنوان "Rulers" إطاراً مبتكراً مكوناً من ثلاث مراحل يعمل على تحويل المعايير البشرية إلى بروتوكول درجات ثابت وقابل للتدقيق. يسلط هذا الإطار الضوء على ثلاث مشكلات شائعة في تقييم النصوص بواسطة نماذج الذكاء الاصطناعي: انحراف التنفيذ، عدم إمكانية التحقق من نسب الدرجات، وعدم التوافق مع المعايير البشرية.

تتمثل المرحلة الأولى في تحويل المعايير البشرية إلى مواصفات غلق_task، بينما تقتصر المرحلة الثانية على اتخاذ قرارات منظمة عبر قوائم مراجعة مدروسة. وأخيراً، تسهم العملية الثالثة في معايرة ما بعد التنفيذ لتحسين توافق الدرجات المستخلصة مع الحدود البشرية.

لقد أظهرت التجارب أن Rulers توفر توافقاً أقوى مع الدرجات البشرية عبر العديد من المعايير مثل تقييم المقالات والتقييم الكتابي للغة الإنجليزية كلغة أجنبية. وسائل التحليل الإضافية أكدت أن هذا الإطار يتيح توزعات درجات بشرية أكثر توافقاً، ما يعزز الدقة والموثوقية في عملية التقييم.

تؤكد نتائج هذه الدراسة على ضرورة الاعتماد على معايير ثابتة وأدلة قابلة للتتبع في تقييم نصوص الذكاء الاصطناعي بدلاً من التعامل مع الصيغ المستخدمة فقط. يمكنكم الاطلاع على الشيفرة المصدرية للدراسة عبر هذا الرابط: https://anonymous.4open.science/r/Rulers_0525-3328.