في الوقت الذي يتزايد فيه استخدام [نماذج [اللغات](/tag/اللغات) الكبيرة](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)-الكبيرة) ([LLMs](/tag/llms)) كمساعدين علميين ذكيين، تظهر الحاجة الملحة إلى [أدوات](/tag/أدوات) [تقييم](/tag/تقييم) دقيقة تقيس قدراتها بشكل شامل. هنا يأتي دور SCICONVBENCH، ليثبت أنه معيار مبتكر في مجال [تقييم](/tag/تقييم) [دقة](/tag/دقة) الحوار في صياغة المهام العلمية.
تستهدف المنظومة [المعايير](/tag/المعايير) المطلوبة في أربع مجالات رئيسية: ديناميكا السوائل، ميكانيكا [المواد](/tag/المواد) الصلبة، [علوم](/tag/علوم) المواد، والمعادلات التفاضلية الجزئية (PDEs). ويشتمل SCICONVBENCH على قدرين تكميليين: استنباط [المعلومات](/tag/المعلومات) المفقودة (إزالة [الغموض](/tag/الغموض)) واكتشاف وتصحيح الطلبات الخاطئة التي تحتوي على [معلومات](/tag/معلومات) متعارضة داخليًا (حل التناقض).
[الميزة](/tag/الميزة) الفريدة لهذا النظام أنه يعزز [تقييم الأداء](/tag/[تقييم](/tag/تقييم)-[الأداء](/tag/الأداء)) من خلال إطار [عمل](/tag/عمل) مشروط، مما يجعلنا نستطيع [قياس](/tag/قياس) [أداء](/tag/أداء) [نماذج [اللغات](/tag/اللغات) الكبيرة](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)-الكبيرة) بدقة عالية [عبر](/tag/عبر) ثلاثة أبعاد رئيسية: [سلوك](/tag/سلوك) التوضيح، ضمان المحادثة، وموثوقية التحديد النهائي.
وبالرغم من [الأداء](/tag/الأداء) الجيد للنماذج الحالية في حل التناقضات، إلا أن النتائج تشير إلى أن أفضل [نموذج](/tag/نموذج) حالياً ينجح في حل 52.7% من حالات إزالة [الغموض](/tag/الغموض) في [ديناميكا السوائل](/tag/ديناميكا-السوائل). كما أظهرت الدراسات أن العديد من [النماذج الكبيرة](/tag/[النماذج](/tag/النماذج)-الكبيرة) [تدخل](/tag/تدخل) افتراضات غير معلنة وتقوم بإصلاحات ضمنية غير مرتبطة بالمحادثة مع المستخدمين.
باختصار، تعد SCICONVBENCH خطوة رائدة [نحو](/tag/نحو) [تقييم](/tag/تقييم) قدرة [أدوات](/tag/أدوات) [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي) في [دعم](/tag/دعم) [الأبحاث](/tag/الأبحاث) العلمية، مما يساهم في توفير مساعدة أكثر [موثوقية](/tag/موثوقية) وكفاءة للباحثين في المستقبل. يمكن العثور على الشيفرة والبيانات = على [GitHub](https://github.com/csml-rpi/SciConvBench) لتطوير وتحسين هذه [التكنولوجيا](/tag/التكنولوجيا).
SCICONVBENCH: معيار ثوري لتحسين نماذج الذكاء الاصطناعي في العلوم الحاسوبية!
يقدم SCICONVBENCH منظومة معيارية فريدة لتقييم نماذج اللغات الكبيرة (LLMs) في طروح العلم الحاسوبية، مما يساعد في تحسين دقة الحوار العلمي. تعرف على كيف يمكن لهذه المنظومة تغيير طريقة تفاعلنا مع الذكاء الاصطناعي في الأبحاث!
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
