في عالم الذكاء الاصطناعي، تزايد الاعتماد على نماذج اللغة الكبيرة (LLMs) كقضاة في عملية التفكير المنطقي (Chain-of-Thought Reasoning)، لكن تبقى هناك تساؤلات حول موثوقية هذه النماذج في تقدير دقة العملية بدلاً من مجرد تقييم احتمالية الإجابات. هنا يظهر معيار C2-Faith كحل مبتكر يوفر إطاراً موثوقاً لتقييم هذه النماذج.
يعمل معيار C2-Faith، المستوحى من مجموعة بيانات PRM800K، على تفكيك مسألة الموثوقية إلى بُعدين تكامليين: الأول هو السببية (Causality) والتي تُعنى بمدى تتابع كل خطوة من السياق السابق، والثاني هو التغطية (Coverage) والتي تتعلق بمدى توفر الاستنتاجات الأساسية خلال العملية.
باستخدام تحويرات مسيطر عليها، تم بناء نماذج معروفة لطبيعة الأخطاء السببية من خلال استبدال خطوة واحدة بنموذج غير منطقي، بالإضافة إلى حذف استنتاجات معينة بمعدلات متفاوتة، مما يتيح قياساً مباشراً مقارنةً بالمعايير المرجعية. تمت تقييم ثلاثة نماذج لغة كبيرة رائدة عبر ثلاث مهام: الكشف الثنائي عن الأخطاء السببية، تحديد مواقع الأخطاء السببية، وتقييم التغطية.
نتائج الدراسة تكشف أن موثوقية القضاة تختلف بشكل كبير اعتماداً على طبيعة المهمة، حيث لم يُظهر أي نموذج سطوة على جميع الإعدادات. على الرغم من أن النماذج يمكن أن تكشف عن وجود الخطأ، إلا أنها تعاني من صعوبة في تحديد موقعه بدقة، مما يبرز الفجوة الكبيرة بين الكشف والتخصيص. بالإضافة إلى ذلك، جميع القضاة يقيمون عادةً مستوى التفكير بشكل مبالغ فيه، حيث يمنحون درجات مرتفعة من التغطية حتى عندما تكون أجزاء ملحوظة من التفكير الوسيط مفقودة.
تسلط هذه النتائج الضوء على القيود الأساسية لنماذج اللغة الكبيرة في التقييم على مستوى العملية، مما يؤكد الحاجة إلى أساليب أكثر موثوقية ودقة عند استخدام هذه النماذج لتقييم جودة التفكير.
هل تعتقد أن نماذج اللغة الكبيرة تستطيع تحسين دقة تقييمها بمرور الوقت؟ شاركونا آرائكم في التعليقات!
قوة القياس: كيف تحدد نماذج اللغة الحديثة موثوقية التفكير المنطقي؟
تقديم C2-Faith كمعيار جديد لتقييم موثوقية نماذج اللغة الكبيرة (LLMs) في التفكير المنطقي. تكشف النتائج عن فجوات كبيرة في قدرة هذه النماذج على تقييم الأخطاء المعقدة بدقة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
