تقييم نماذج اللغة الكبيرة: قفزة في فهم سلوكيات الفئران من خلال CheeseBench!

Q: ما هو موضوع مقال "تقييم نماذج اللغة الكبيرة: قفزة في فهم سلوكيات الفئران من خلال CheeseBench!"؟

يتناول المقال بالتفصيل والتحليل آخر الأخبار والتطورات المتعلقة بـ "تقييم نماذج اللغة الكبيرة: قفزة في فهم سلوكيات الفئران من خلال CheeseBench!" في عالم الذكاء الاصطناعي والتكنولوجيا الناشئة.

اجتاز العلم حقبة جديدة من الابتكار من خلال تطوير CheeseBench، المعيار الذي يقيم نماذج اللغة الكبيرة (Large Language Models) في مجالات علم الأعصاب السلوكي. يركز CheeseBench على تسعة نماذج كلاسيكية مثل متاهة موريش، ومتاهة بارنز، وغيرها، لتحليل كيفية استجابة النماذج لهذه التحديات.

المثير للاهتمام هو أن هذه المهام مستندة إلى بروتوكولات معتمدة علميًا والتي تهدف إلى تقييم سلوك الفئران، مما يسمح لنا بفهم سلوكيات تعلّم الحيوانات بطريقة أكثر دقة. يتلقى النموذج المحفزات النصية بعد أن يتم وضعه في بيئة جديدة، تمامًا كما يفعل الفأر عندما يُوضع في جهاز غير مألوف.

أجريت تجارب على ستة نماذج مفتوحة الوزن، وتبين أن الأداء المتوسط لأفضل نموذج - Qwen2.5-VL-7B - بلغ 52.6% عند تقديم المدخلات النصية، وهو ما يعد تقدمًا ملحوظًا مقارنة بـ32.1% لنماذج عشوائية، و78.9% لمعايير الفئران.

ومع ذلك، كشفت النتائج أيضًا عن تحديات حقيقية؛ حيث أن زيادة حجم النموذج beyond 7B تمنح عوائد متناقصة، وأن تاريخ السياق الأطول قد يؤثر سلبًا على الأداء. كما أن استخدام أسلوب سلسلة التفكير يحتاج إلى مراجعة، حيث أظهر تأثيرا معاكسًا للعملية.

على الرغم من ذلك، تبقى النماذج الحالية مفتوحة الوزن أدنى بكثير من القيم المرجعية للفئران، لا سيما في المهام التي تتطلب التنقل المكاني وتتبع الحالات داخل التجربة.

إذا كنت متخصصًا في مجالات الذكاء الاصطناعي أو علم الأعصاب، فإن CheeseBench يفتح آفاقًا جديدة لفهم وتقييم نماذج اللغة الكبيرة وكيف يمكن تحسينها للقيام بمهام معقدة.

تقييم نماذج اللغة الكبيرة: قفزة في فهم سلوكيات الفئران من خلال CheeseBench!

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

جوجل تطلق ميزة الذكاء الشخصي جيمني في الهند: تجربة مخصصة في متناول يدك!

في أعقاب ثورة الذكاء الاصطناعي: Vercel تستعد للطرح العام بفضل زيادة الإيرادات

من نماذج اللغات الضخمة إلى الهلوسات: دليلك الشامل لأهم مصطلحات الذكاء الاصطناعي!