اجتاز العلم حقبة جديدة من الابتكار من خلال تطوير CheeseBench، المعيار الذي يقيم نماذج اللغة الكبيرة (Large Language Models) في مجالات علم الأعصاب السلوكي. يركز CheeseBench على تسعة نماذج كلاسيكية مثل متاهة موريش، ومتاهة بارنز، وغيرها، لتحليل كيفية استجابة النماذج لهذه التحديات.
المثير للاهتمام هو أن هذه المهام مستندة إلى بروتوكولات معتمدة علميًا والتي تهدف إلى تقييم سلوك الفئران، مما يسمح لنا بفهم سلوكيات تعلّم الحيوانات بطريقة أكثر دقة. يتلقى النموذج المحفزات النصية بعد أن يتم وضعه في بيئة جديدة، تمامًا كما يفعل الفأر عندما يُوضع في جهاز غير مألوف.
أجريت تجارب على ستة نماذج مفتوحة الوزن، وتبين أن الأداء المتوسط لأفضل نموذج - Qwen2.5-VL-7B - بلغ 52.6% عند تقديم المدخلات النصية، وهو ما يعد تقدمًا ملحوظًا مقارنة بـ32.1% لنماذج عشوائية، و78.9% لمعايير الفئران.
ومع ذلك، كشفت النتائج أيضًا عن تحديات حقيقية؛ حيث أن زيادة حجم النموذج beyond 7B تمنح عوائد متناقصة، وأن تاريخ السياق الأطول قد يؤثر سلبًا على الأداء. كما أن استخدام أسلوب سلسلة التفكير يحتاج إلى مراجعة، حيث أظهر تأثيرا معاكسًا للعملية.
على الرغم من ذلك، تبقى النماذج الحالية مفتوحة الوزن أدنى بكثير من القيم المرجعية للفئران، لا سيما في المهام التي تتطلب التنقل المكاني وتتبع الحالات داخل التجربة.
إذا كنت متخصصًا في مجالات الذكاء الاصطناعي أو علم الأعصاب، فإن CheeseBench يفتح آفاقًا جديدة لفهم وتقييم نماذج اللغة الكبيرة وكيف يمكن تحسينها للقيام بمهام معقدة.
تقييم نماذج اللغة الكبيرة: قفزة في فهم سلوكيات الفئران من خلال CheeseBench!
تم إطلاق CheeseBench، معيار جديد يهدف لتقييم نماذج اللغة الكبيرة في فهم سلوكيات الفئران عبر تسعة نماذج كلاسيكية في علم الأعصاب السلوكي. توضح النتائج أن الأداء يظل بعيدًا عن معايير الفئران رغم التقدم التكنولوجي.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
