في عالم تصميم الأجهزة، يقدم معيار HWE-Bench تحولًا جذريًا في تقييم قدرة نماذج اللغة الكبيرة (Large Language Models) على التعامل مع مشكلات تصحيح الأخطاء الحقيقية. على عكس المعايير السابقة التي كانت تركز بشكل أساسي على مهام بسيطة في مكونات فردية، تتيح HWE-Bench تقييماً على نطاق واسع يشمل 417 حالة مهمة مأخوذة من طلبات تصحيح أخطاء حقيقية في ستة مشاريع مفتوحة المصدر رئيسية. تشمل هذه المشاريع لغات التصميم الشهيرة مثل Verilog وSystemVerilog وChisel، وتتناول معالجات RISC-V ووحدات التحكم الأمنية.
يتم اختبار نماذج الذكاء الاصطناعي في بيئة معزولة تمامًا حيث يتعين عليها حل تقارير الأخطاء الحقيقية. يتم التحقق من صحة الحلول من خلال التدفقات_native للتجارب والانحدار في المشاريع المعنية. تم تطوير هذا المعيار من خلال استكمال عمليات آلية مما يتيح تسريع التوسع إلى مستودعات جديدة.
تتضمن الدراسة تقييم سبعة نماذج لغوية مع أربعة أطر عمل للوكالات، ووجد الباحثون أن أفضل وكيل نجح في حل 70.7% من المهام. الأداء كان مثيرًا للإعجاب على المعالجات الصغيرة حيث بلغ أكثر من 90%، ولكنه انخفض إلى أقل من 65% في مشاريع SoC المعقدة. كما تم تقييم العوامل التي تؤثر على الأداء، حيث تم تسجيل فجوات كبيرة مقارنةً بالمعايير البرمجية، مع العلاقة بين نطاق المشروع ونوع الأخطاء.
تحليل الفشل كشف عن نقاط ضعف الوكالات في ثلاث مراحل من عملية تصحيح الأخطاء: تحديد مكان العطل، التفكير في معنى الأجهزة، والتنسيق بين العناصر المختلفة في RTL والتكوين والتحقق. هذا يوفر توجيهات محددة لتطوير وكالات أكثر قدرة على التعامل مع التحديات المعقدة في تصميم الأجهزة.
HWE-Bench: أول معيار لتقييم نماذج الذكاء الاصطناعي في تصحيح أخطاء الأجهزة الحقيقية!
تم إطلاق HWE-Bench، أول معيار عالمي لتقييم أداء نماذج اللغة الكبيرة (LLMs) في إصلاح أخطاء الأجهزة الحقيقية. يهدف هذا النظام إلى تقديم تقييم دقيق لتحسين أداء هذه النماذج في المهام المعقدة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
