في خطوة مبتكرة نحو تطوير الذكاء الاصطناعي، أطلقت OpenAI معيار LifeSciBench الجديد، الذي يعدّ منصة فريدة لتقييم كفاءة نماذج الذكاء الاصطناعي في التعامل مع أبحاث الحياة الحقيقية. يتضمن هذا المعيار 750 مهمة تقييمية تم تصميمها بدقة من قبل 173 عالمًا حاصلًا على درجة الدكتوراه، والتي تتوزع على سبعة مسارات عمل وسبعة مجالات بيولوجية.
ما يميز LifeSciBench هو أنه لا يقتصر على قياس قدرة النماذج على التذكر فحسب، بل يتعداها لتقييم أسلوب التفكير والقرارات المتخذة من قبل هذه النماذج. فقد حدد الخبراء 19,020 معيارًا من معايير التقييم لتوفير تقييم شامل ودقيق.
أحد النماذج التي تم اختبارها هو GPT-Rosalind، الذي تمكن من اجتياز 36.1% من هذه المهام، مما يشير إلى وجود مجال كبير للتحسين في النتائج النهائية والتفاعل مع البيانات المعقدة. يعتبر هذا التطور خطوة هامة نحو تحسين مستوى الذكاء الاصطناعي في مجالات علم الأحياء.
كيف يمكن أن تؤثر هذه التطورات على المستقبل؟ خاصة في ظل التحديات المتزايدة في الأبحاث العلمية؟ تابعونا لتحصلوا على آخر الأخبار وأحدث التطورات!
إطلاق LifeSciBench: معيار جديد يقيس كفاءة نماذج الذكاء الاصطناعي في أبحاث الحياة الحقيقية!
تقدم OpenAI LifeSciBench، معياراً ثورياً يتضمن 750 مهمة تقييمية تقيس قدرة نماذج الذكاء الاصطناعي في مجالات أبحاث الحياة الواقعية. يعتمد المعيار على تقييمات من خبراء مختصين، مما يوفر صورة دقيقة عن الأداء الحقيقي لهذه النماذج.
المصدر الأصلي:مارك تيك بوست
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
