في عصر يتسم بتوسع استخدام نماذج اللغات الضخمة (LLMs) في مختلف التطبيقات الذكية، نشأت تحديات جديدة تتعلق بكيفية تقييم هذه النماذج لنتائجها. يعتمد الكثير من النماذج على تقييم إجاباتها بشكل ذاتي دون توفر تحقق خارجي، مما يجعل موثوقيتها في حالة شك.

مؤخراً، اقترح باحثون مقياساً جديداً يُعرف باسم "الاتساق الذاتي بين المولد والمقيم" (generator-evaluator self-consistency) لاختبار هذا الافتراض بشكل مباشر. تم تطبيق هذا المقياس على عشرة نماذج متطورة عبر 491 مفهومًا، وكانت النتائج مثيرة للاهتمام.

أولاً، أظهرت البيانات وجود تباين كبير في مستوى الاتساق الذاتي بين النماذج المختلفة، وهو ما يُعتبر إنذارًا للباحثين والمطورين. ثانياً، خلال دراسة الحالة السريرية التي تضمنت أخطاء موثوقة من قبل الأطباء، لوحظ أن النماذج الأقل اتساقًا كانت أقل عرضة للأخطاء، بالمقارنة مع تلك التي أظهرت مستويات عالية من الاتساق.

هذا الأمر يطرح سؤالًا مهمًا: كيف يمكن للنماذج التي تُظهر اتساقًا أكبر في تطبيق المفاهيم أن تكون في الوقت نفسه أكثر عرضة للأخطاء؟ إن هذا "المأزق" في الاتساق الذاتي يكشف عن ضرورة فحص دقيق لكيفية عمل هذه النماذج قبل الاعتماد عليها بشكل كامل. في النهاية، على الباحثين تطوير أساليب لتعزيز سلامة وجودة نتائج نماذج الذكاء الاصطناعي.

ما رأيكم في هذا الاكتشاف؟ هل تعتقدون أن هناك وسائل لتحسين موثوقية هذه النماذج؟ شاركونا آرائكم في التعليقات!