في ظل التطور السريع والاستخدام المتزايد لنماذج اللغة الكبيرة (Large Language Models) في سير العمل الاحترافية، كان من الضروري تقييم معرفتها المتخصصة وفقًا للمعايير الصناعية. لهذا الغرض، تم تقديم CyberCertBench، مجموعة جديدة من معايير أسئلة اختيار من متعدد (Multiple Choice Question Answering) مستمدة من الشهادات المعترف بها في الصناعة.
تعمل CyberCertBench على تقييم معرفة النماذج اللغوية ضد المعايير المهنية في مجال تكنولوجيا المعلومات وأمن المعلومات، بالإضافة إلى مجالات أكثر تخصصًا مثل تكنولوجيا العمليات والمعايير المرتبطة بالأمن السيبراني.
علاوة على ذلك، تم اقتراح والتحقق من صحة إطار العمل الفريد المعروف باسم Proposer-Verifier، وهي منهجية تهدف إلى توليد تفسيرات قابلة للفهم بلغة طبيعية لأداء النماذج.
تظهر التقييمات أن النماذج الحديثة تمكنت من تحقيق مستوى من المعرفة يعادل مستوى الخبراء في شبكات المعلومات وأمن تكنولوجيا المعلومات بشكل عام. ومع ذلك، ينخفض مستوى الدقة في الأسئلة التي تتطلب فهماً عميقًا للفروق الدقيقة الخاصة بالموردين أو المعرفة بالمعايير الرسمية، مثل معيار IEC 62443.
تشير تحليلات الاتجاهات في حجم النموذج وتاريخ الإصدارات إلى تحقيق مكاسب ملحوظة في كفاءة المعلمات، بينما تُظهر النماذج الأكبر حديثًا عوائد متناقصة.
للمزيد من المعلومات والوصول إلى الأكواد والنماذج التجريبية، يمكنك زيارة [رابط GitHub الخاص بالمشروع](https://github.com/GKeppler/CyberCertBench). ما رأيكم في هذا التطور الهام في تقييم مهارات الذكاء الاصطناعي؟ شاركونا آراءكم في التعليقات!
CyberCertBench: أداة مبتكرة لتقييم مهارات نماذج اللغة في أمن المعلومات
تقدم CyberCertBench طريقة تقييم جديدة لمهارات نماذج اللغة الكبيرة (LLMs) في مجال أمن المعلومات. الفحص يظهر كفاءة هذه النماذج مقارنة بمعايير الصناعة المتخصصة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
