اجتاز العلم حقبة جديدة من [الابتكار](/tag/الابتكار) من خلال [تطوير](/tag/تطوير) CheeseBench، المعيار الذي يقيم [نماذج [اللغة](/tag/اللغة) الكبيرة](/tag/[نماذج](/tag/نماذج)-[اللغة](/tag/اللغة)-الكبيرة) (Large Language [Models](/tag/models)) في مجالات [علم الأعصاب](/tag/علم-[الأعصاب](/tag/الأعصاب)) السلوكي. يركز CheeseBench على تسعة [نماذج](/tag/نماذج) كلاسيكية مثل متاهة موريش، ومتاهة بارنز، وغيرها، لتحليل كيفية استجابة [النماذج](/tag/النماذج) لهذه التحديات.

المثير للاهتمام هو أن هذه المهام مستندة إلى [بروتوكولات](/tag/بروتوكولات) معتمدة علميًا والتي تهدف إلى [تقييم](/tag/تقييم) [سلوك](/tag/سلوك) الفئران، مما يسمح لنا بفهم [سلوكيات](/tag/سلوكيات) تعلّم الحيوانات بطريقة أكثر [دقة](/tag/دقة). يتلقى النموذج المحفزات النصية بعد أن يتم وضعه في [بيئة](/tag/بيئة) جديدة، تمامًا كما يفعل الفأر عندما يُوضع في جهاز غير مألوف.

أجريت [تجارب](/tag/تجارب) على ستة [نماذج مفتوحة](/tag/[نماذج](/tag/نماذج)-مفتوحة) الوزن، وتبين أن [الأداء](/tag/الأداء) المتوسط لأفضل [نموذج](/tag/نموذج) - Qwen2.5-VL-7B - بلغ 52.6% عند تقديم المدخلات النصية، وهو ما يعد تقدمًا ملحوظًا مقارنة بـ32.1% لنماذج عشوائية، و78.9% لمعايير الفئران.

ومع ذلك، كشفت النتائج أيضًا عن [تحديات](/tag/تحديات) حقيقية؛ حيث أن زيادة حجم النموذج beyond 7B تمنح عوائد متناقصة، وأن [تاريخ](/tag/تاريخ) [السياق](/tag/السياق) الأطول قد يؤثر سلبًا على [الأداء](/tag/الأداء). كما أن استخدام أسلوب [سلسلة التفكير](/tag/سلسلة-[التفكير](/tag/التفكير)) يحتاج إلى مراجعة، حيث أظهر تأثيرا معاكسًا للعملية.

على الرغم من ذلك، تبقى [النماذج](/tag/النماذج) الحالية مفتوحة الوزن أدنى بكثير من القيم المرجعية للفئران، لا سيما في المهام التي تتطلب [التنقل](/tag/التنقل) المكاني وتتبع الحالات داخل [التجربة](/tag/التجربة).

إذا كنت متخصصًا في [مجالات الذكاء الاصطناعي](/tag/مجالات-الذكاء-الاصطناعي) أو علم الأعصاب، فإن CheeseBench يفتح آفاقًا جديدة لفهم وتقييم [نماذج [اللغة](/tag/اللغة) الكبيرة](/tag/[نماذج](/tag/نماذج)-[اللغة](/tag/اللغة)-الكبيرة) وكيف يمكن تحسينها للقيام بمهام معقدة.