في عالم يتسارع فيه التطور التكنولوجي، يطرح السؤال الأهم: هل يمكن للذكاء الاصطناعي القائم على الوكالة (Agentic AI) أن يتجاوز حدود البرمجيات ليتعامل مع هندسة الأجهزة؟ في بحث جديد نُشر في arXiv، تمت معالجة هذا السؤال من خلال دراسة شاملة حملت اسم "Phoenix-bench".

ومع تزايد الاعتماد على نماذج اللغات الضخمة (Large Language Models) في البرمجيات، كان من الضروري اختبار مدى قدرتها في سيناريوهات هندسية لأجهزة حقيقية. إن معظم الاختبارات الحالية تركز على المهام الفرعية ولا تجمع بينها بشكلٍ كامل، مثل التنقل في المستودعات (repository navigation) والتصميم الإلكتروني الآلي (Electronic Design Automation).

يتوجب علينا هنا أن نقدم "Phoenix-bench"، وهو مجموعة متزامنة تتكون من 511 حالة مُتحققة باستخدام Verilator من 114 مستودعًا على GitHub. هذه المجموعة مزودة بتحديثات من المطور، وعلامات تدفق التصميم، واختبارات للتحقق من نجاح وفشل الحالات. ومن المثير للاهتمام، أن استخدام "Phoenix-bench" سمح بإجراء تقييم موحد لأربعة وكلاء تجاريين وثمانية هياكل قائمة على الوكالة عبر أربعة أنظمة أساسية من نماذج اللغات.

لقد أسفر البحث عن ثلاث نتائج رئيسية:
(i) تُظهر النتائج أن البرمجيات والأجهزة هما مهمتان هندسيتان مختلفتان تمامًا. يُظهر البحث أن نفس الوكيل يمكن أن يُسجل خسائر تتراوح بين 37% إلى 58% عند الانتقال من "SWE-bench Verified" إلى "Phoenix-bench". وذلك لأن الأخطاء في الأجهزة تنتشر عبر وحدات مُثبّتة بالتوازي وليس عبر المخطط التقليدي للبرمجيات.
(ii) تتركز الإخفاقات بشكل كبير على الأخطاء في تدفقات التحكم في التصميم، وأخطاء اختبارات التحقق، والحالات الصعبة التي تتطلب تتبع تدفق الإشارة عبر الهياكل المتداخلة.
(iii) إن دقة التحديد لها تأثير كبير أكثر من مجرد التحديد ذاته: فقد حصل التحديد المثالي على مستوى الملفات على زيادة بسيطة في المعدل، بينما حقق جولة واحدة من التغذية المرتدة من حالات الاختبار زيادة بمعدل 42% إلى 45%.

بهذه النتائج، يتضح أن الجهود المبذولة لدمج الذكاء الاصطناعي في هندسة الأجهزة تتطلب فهمًا أعمق لاستراتيجيات وطرق جديدة للتغلب على التحديات.

ما هي توقعاتكم لمستقبل الذكاء الاصطناعي في مجالات جديدة مثل هندسة الأجهزة؟ شاركونا في التعليقات.