في عالم تتزايد فيه أهمية الذكاء الاصطناعي، يبرز إطار تقييم جديد يُعرف بـSCRuB (التفكير حول المفاهيم الاجتماعية تحت التقييم القائم على معايير) ليكون أداة محورية في قياس قدرة النماذج اللغوية (Large Language Models) على معالجة المفاهيم الاجتماعية.
تتجاوز الدراسات السابقة التركيز على القدرات الرياضية أو التقنية لهذه النماذج، ونادرًا ما تم تناول التفكير في المفاهيم الاجتماعية التي تشكل النظم الثقافية والاجتماعية. يقدم SCRuB منهجية تقييم منهجية لتقدير مدى عمق وفهم هذه النماذج للمفاهيم الاجتماعية بالمقارنة مع خبراء البشر.
يتكون إطار SCRuB من ثلاث مراحل رئيسية: أولاً، بناء الأسئلة من مصادر موثوقة؛ ثانيًا، توليد الاستجابات من قبل الخبراء والنماذج؛ وأخيرًا، تقييم مقارن باستخدام مقياس تقييم يتكون من خمسة أبعاد لقياس التفكير النقدي. لتوسيع نطاق التطبيق، يتم استخدام مجموعة من آراء الخبراء المعتمدة، مما يضيف عمقًا إضافيًا للعملية.
ومن نتائج البحث، تم الكشف عن تفوق النماذج اللغوية المتقدمة على الخبراء البشريين في جميع أبعاد التقييم. حيث أظهرت التحليلات أن الاستجابة النموذجية تم تفضيلها بنسبة 80.8% من قبل القضاة الخبراء، مما يبرز الكم الهائل من التطور الذي تحقق في هذا المجال.
هذا البحث يمثل خطوة مهمة نحو تطوير أداء النماذج اللغوية كوكيل اجتماعي، حيث يظهر نقص المنهجيات التقييمية الحالية ويقدم حلولاً جديدة ومبتكرة.
SCRuB: ثورة في تقييم تفكير النماذج اللغوية حول المفاهيم الاجتماعية
تقدم SCRuB إطارًا مبتكرًا لتقييم قدرة النماذج اللغوية على التفكير في المفاهيم الاجتماعية، حيث نجد أن هذه النماذج تتفوق على الخبراء البشريين في تحليلها. يعد هذا البحث خطوة هامة نحو تعزيز دور الذكاء الاصطناعي كوكيل اجتماعي بامتياز.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
