في عالم الذكاء الاصطناعي، يعتبر التقييم المعتمد على المعايير (Rubric-based evaluation) أحد الأساليب الأساسية المستخدمة في تقييم نماذج اللغات الضخمة (Large Language Models) وأدوات التعلم الآلي. لكن، هل فكرنا يوماً في كيف يمكن أن تفشل هذه المعايير في تقديم تقييم دقيق؟ هنا يأتي دور الابتكار الجديد المتمثل في RIFT (Taxonomy of Rubric Failure Modes).

RIFT يمثل تصنيفاً مهنياً يفكك أنواع الفشل في تصميم وتركيب نماذج التقييم، وهو مصمم لتقديم رؤية أكثر وضوحًا حول كيفية حدوث هذه الفشل. يتكون هذا التصنيف من ثمانية أنواع فشل، موزعة على ثلاث فئات رئيسية:

1. **فشل الموثوقية (Reliability Failures)**: ويشير إلى عدم استقرار النتائج عند استخدام المعايير.
2. **فشل صلاحية المحتوى (Content Validity Failures)**: حيث لا تعكس المعايير المحتوى أو الأهداف المطلوبة.
3. **فشل صلاحية العواقب (Consequential Validity Failures)**: والذي يتعلق بالفشل في تحقيق النتائج المنشودة من التقييم.

تم تطوير RIFT من خلال نظرية أساسية وعمليات توثيق مستمرة لمعايير تم اختيارها من خمسة مصادر بيانات متنوعة، تشمل تفاعلات تعليمية، برمجة أكواد، كتابة إبداعية، وأبحاث عميقة. وتم قياس توافق التصنيف من خلال تقييم آراء مُعَلقين مستقلين، وحقق توافقًا جيدًا (87% اتفاق تقابلي و0.64 معدل كابا لكوهين).

بجانب ذلك، تم اقتراح مقاييس نوعية أوتوماتيكية لدعم التشخيص القابل للتوسع، مما يُظهر توافقاً كبيراً مع تقييمات الفشل من قبل البشر، مع تحقيق معدل F1 يصل إلى 0.925.

تقدم RIFT فرصة لتحسين آلية التقييم في الذكاء الاصطناعي وتوجيه الباحثين والمطورين نحو بناء نماذج أكثر كفاءة وملاءمة. فهل تتوقعون أن تُحسن هذه الابتكارات من جودة التطبيقات في الذكاء الاصطناعي؟ شاركونا آرائكم في التعليقات.