اجتاز العلم حقبة جديدة من [الابتكار](/tag/الابتكار) من خلال [تطوير](/tag/تطوير) CheeseBench، المعيار الذي يقيم [نماذج [اللغة](/tag/اللغة) الكبيرة](/tag/[نماذج](/tag/نماذج)-[اللغة](/tag/اللغة)-الكبيرة) (Large Language [Models](/tag/models)) في مجالات [علم الأعصاب](/tag/علم-[الأعصاب](/tag/الأعصاب)) السلوكي. يركز CheeseBench على تسعة [نماذج](/tag/نماذج) كلاسيكية مثل متاهة موريش، ومتاهة بارنز، وغيرها، لتحليل كيفية استجابة [النماذج](/tag/النماذج) لهذه التحديات.
المثير للاهتمام هو أن هذه المهام مستندة إلى [بروتوكولات](/tag/بروتوكولات) معتمدة علميًا والتي تهدف إلى [تقييم](/tag/تقييم) [سلوك](/tag/سلوك) الفئران، مما يسمح لنا بفهم [سلوكيات](/tag/سلوكيات) تعلّم الحيوانات بطريقة أكثر [دقة](/tag/دقة). يتلقى النموذج المحفزات النصية بعد أن يتم وضعه في [بيئة](/tag/بيئة) جديدة، تمامًا كما يفعل الفأر عندما يُوضع في جهاز غير مألوف.
أجريت [تجارب](/tag/تجارب) على ستة [نماذج مفتوحة](/tag/[نماذج](/tag/نماذج)-مفتوحة) الوزن، وتبين أن [الأداء](/tag/الأداء) المتوسط لأفضل [نموذج](/tag/نموذج) - Qwen2.5-VL-7B - بلغ 52.6% عند تقديم المدخلات النصية، وهو ما يعد تقدمًا ملحوظًا مقارنة بـ32.1% لنماذج عشوائية، و78.9% لمعايير الفئران.
ومع ذلك، كشفت النتائج أيضًا عن [تحديات](/tag/تحديات) حقيقية؛ حيث أن زيادة حجم النموذج beyond 7B تمنح عوائد متناقصة، وأن [تاريخ](/tag/تاريخ) [السياق](/tag/السياق) الأطول قد يؤثر سلبًا على [الأداء](/tag/الأداء). كما أن استخدام أسلوب [سلسلة التفكير](/tag/سلسلة-[التفكير](/tag/التفكير)) يحتاج إلى مراجعة، حيث أظهر تأثيرا معاكسًا للعملية.
على الرغم من ذلك، تبقى [النماذج](/tag/النماذج) الحالية مفتوحة الوزن أدنى بكثير من القيم المرجعية للفئران، لا سيما في المهام التي تتطلب [التنقل](/tag/التنقل) المكاني وتتبع الحالات داخل [التجربة](/tag/التجربة).
إذا كنت متخصصًا في [مجالات الذكاء الاصطناعي](/tag/مجالات-الذكاء-الاصطناعي) أو علم الأعصاب، فإن CheeseBench يفتح آفاقًا جديدة لفهم وتقييم [نماذج [اللغة](/tag/اللغة) الكبيرة](/tag/[نماذج](/tag/نماذج)-[اللغة](/tag/اللغة)-الكبيرة) وكيف يمكن تحسينها للقيام بمهام معقدة.
تقييم نماذج اللغة الكبيرة: قفزة في فهم سلوكيات الفئران من خلال CheeseBench!
تم إطلاق CheeseBench، معيار جديد يهدف لتقييم نماذج اللغة الكبيرة في فهم سلوكيات الفئران عبر تسعة نماذج كلاسيكية في علم الأعصاب السلوكي. توضح النتائج أن الأداء يظل بعيدًا عن معايير الفئران رغم التقدم التكنولوجي.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
