في الآونة الأخيرة، ظهر تحدي جديد في عالم الذكاء الاصطناعي يتمثل في تقييم نماذج اللغة (Language Models) من خلال معايير مهيكلة تسهم في استعراض كفاءتها عند مواجهة أسئلة STEM (العلوم، التكنولوجيا، الهندسة، الرياضيات). وقد قام باحثون بتطوير benchmark جديد يُعرف باسم Sci-Rho، الذي يُعتبر تطورًا ملحوظًا في هذا المجال.
يهدف Sci-Rho إلى معالجة النقاط القصوى التي تعاني منها النماذج الحالية، حيث تركز معظم هذه النماذج على التفكير الرياضي وتفتقر إلى الربط المرئي، بالإضافة إلى أنها غالبًا ما تكون باللغة الإنجليزية. معدل الحديث عن اللغة وأبعاد المشاكل هو المحور الأساسي في Sci-Rho، حيث شمل النموذج 4,242 قالبًا للأسئلة، موزعة على خمس مواد علمية سبع لغات.
كل قالب من هذه القوالب تم تصميمه بواسطة خبراء في المجال، بما في ذلك الحائزين على الميداليات في الأولمبياد، حيث يُمثَّل كل قالب ككود بايثون (Python) قابل للتنفيذ، مما يعني توليد العديد من الحالات المتنوعة من خلال تغيير القيم العددية، الأنماط المرئية، الأشكال الهندسية، أنظمة الألوان، وأنواع الدوال. في النهاية، أسفر هذا عن 42,420 حالة اختبار في المجموع، مع خطوات استدلال وحلول حقيقية مصاحبة.
أجريت دراسات تقييم على 17 نموذجاً حديثاً للنماذج اللغوية المرئية (Visual Language Models) وكان هناك فجوة ملحوظة بين دقة الأسوأ (worst-case accuracy) والدقة المتوسطة. وجدت نتائج البحث أن النماذج الأصغر تعاني من تدهور كبير في الأداء عند الانتقال بين اللغات، بينما تظل النماذج الأكبر والمتخصصة أكثر قوة.
توضح النتائج أهمية تقييم النماذج، حيث يجب أن تتجاوز المعايير الثابتة للقياس ومن ثم البدء في تقييم النماذج بناءً على جودة تفاعلها مع مدخلات مرئية وذهنية متباينة.
مجمل القول، فإن Sci-Rho يمثل إضافة هامة للمجتمع البحثي، حيث يُشجع المطورين على تجاوز الحدود التقليدية لتقييم النماذج، مما يمهد الطريق لتطورات مستقبلية مثيرة في عالم الذكاء الاصطناعي.
Sci-Rho: ثورة جديدة في تقييم نماذج الذكاء الاصطناعي لمشكلات STEM عبر اللغات
قدم فريق من الباحثين benchmark جديد يُعرف باسم Sci-Rho، يعزز تقييم نماذج الذكاء الاصطناعي لأسئلة STEM متعددة اللغات. يتميز بالأسئلة المدعومة بصريًا ويوفر قاعدة بيانات غنية تضم أكثر من 42,000 حالة للاختبار.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
