في عالم تقنيات الذكاء الاصطناعي، يبقى تقييم قدرات نماذج اللغات الضخمة (Large Language Models) تحدياً حقيقياً. فبدلاً من تقليص هذه القدرات المتنوعة إلى درجات واحدة، استطاع الباحثون تقديم طريقة جديدة ثورية تدعى JE-IRT. تعتمد هذه الطريقة على إطار نظري هندسي يقوم بدمج النماذج والأسئلة في فضاء مشترك، مما يسمح بفهم أعمق لتنوع القدرات.
لأغراض تقييم الأسئلة، تُستخدم فيما يسمى بـ"التضمينات الاتجاهية"، حيث تعكس الاتجاهات دلالات الأسئلة، بينما تشير المعايير إلى صعوبتها. يتم تحديد مدى صحة إجابة النموذج على كل سؤال من خلال تفاعل هندسي بين التضمينات.
هذا النهج يبدد فكرة التصنيف العام للنماذج ويقدم رؤية تخصصية، مما يسمح بالتنوع السلس عبر الأسئلة ذات الصلة. وفقًا للاختبارات التجريبية، يمكن تفسير سلوك النماذج خارج التوزيع من خلال محاذاة الاتجاه، حيث تشير القيم الأكبر دائماً إلى صعوبة أكبر للأسئلة.
علاوة على ذلك، يوفر JE-IRT إمكانية توسيع هذا الفضاء؛ فعند تعلم هذا الفضاء، يمكن إضافة نماذج جديدة بسهولة عن طريق ضبط تضمين واحد. تكشف هذه المساحة أيضًا عن تصنيف داخلي للنماذج يتماشى جزئيًا مع الفئات التي يعرفها البشر.
كما نلاحظ أن استخدام "مسبارات خطية بسيطة" يمكن أن يحدد اتجاهات القدرة عبر مواضيع مختلفة، مثل المحور الرياضي الذي يبرز الأسئلة التي تتطلب قدرة كمية عالية في مجالات قد تبدو بعيدة مثل الفيروسات والحقائق العالمية.
بالتالي، يؤسس JE-IRT عدسة هندسية موحدة وقابلة للتفسير تتصل بين قدرات النماذج وهياكل الأسئلة، مما يقدم منظوراً فريداً حول تقييم النماذج والتعميم.
ما رأيكم في هذا التطور؟ شاركونا في التعليقات!
JE-IRT: كيف تحدث نقلة نوعية في تقييم نماذج اللغات الضخمة باستخدام الهندسة الرياضية!
تقدم JE-IRT إطارًا هندسيًا جديدًا لتقييم نماذج اللغات الضخمة (LLMs) من خلال دمج الأسئلة في مساحة مشتركة. هذه الطريقة تعزز من فهم قدرات النماذج وتخصصها موضوعياً بدلاً من الاعتماد على درجات واحدة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
