في عصر الذكاء الاصطناعي، لا يمكن أن تظل أساليب تقييم نماذج اللغة الكبيرة (Large Language Models) ثابتة وغير متغيرة. فالمعايير التقليدية لا تعكس بشكل دقيق القدرات الفعلية لهذه النماذج، حيث تؤدي إلى تأثيرات حدية تُخفي فجوات الأداء الحقيقية. هنا تأتي أهمية طريقة جديدة تدعى "التقييم الديناميكي للحدود" (Dynamic Boundary Evaluation - DBE).

تركز DBE على الحدود التي تقع عندها احتمالية النجاح لكل نموذج قريبة من 0.5 خلال عمليات التحليل العشوائي، مما يعني أنها تحدد بفعالية مستوى صعوبة النماذج وتسمح بمقارنة دقيقة بينها. تتضمن هذه الطريقة ثلاثة عناصر رئيسية:
1. **بنك عناصر مُعتمد:** يتضمن معايير تغطي جوانب الأمان والقدرة والصدق، مع تصنيفات صعوبة لكل عنصر تم التحقق منها عبر تسعة نماذج مرجعية.
2. **البحث المرتكز على المهارات (Skill-Guided Boundary Search - SGBS):** وهو خوارزمية بحث تكتشف العناصر الحدودية لنموذج مستهدف باستخدام الوصول إلى واجهة برمجة التطبيقات فقط.
3. **بروتوكول تقييم:** يقوم بوضع نموذج جديد على مقياس موحد للقدرات ويتوسع بشكل ديناميكي عند الحاجة لتغطية نماذج جديدة.

تُطبَّق هذه الطريقة على أربعة فئات مختلفة تشمل الأمان (رفض الطلبات الضارة ومعدل الرفض المفرط)، والقدرة (اتباع التعليمات المقيدة)، والصدق (المقاومة للتملق في المحادثات متعددة الجوانب).

بهذه الطريقة، يمكن أن يغطي التقييم طيفًا أوسع من النماذج دون أن يُحجم نفسه، مع الحفاظ على توافقه مع مجموعات البيانات الحالية. هل تعتقد أن هذه الحقيقة ستحدث تغييراً جذريًا في كيفية تقييم نماذج الذكاء الاصطناعي؟ شاركنا برأيك!