في عالم يتسارع فيه التطور التكنولوجي، يطرح السؤال الأهم: هل يمكن للذكاء الاصطناعي القائم على [الوكالة](/tag/الوكالة) ([Agentic AI](/tag/agentic-ai)) أن يتجاوز حدود [البرمجيات](/tag/البرمجيات) ليتعامل مع [هندسة الأجهزة](/tag/[هندسة](/tag/هندسة)-[الأجهزة](/tag/الأجهزة))؟ في [بحث](/tag/بحث) [جديد](/tag/جديد) نُشر في arXiv، تمت معالجة هذا السؤال من خلال [دراسة](/tag/دراسة) شاملة حملت اسم "[Phoenix-bench](/tag/phoenix-bench)".
ومع تزايد الاعتماد على [نماذج [اللغات](/tag/اللغات) الضخمة](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)-الضخمة) (Large Language [Models](/tag/models)) في البرمجيات، كان من الضروري اختبار مدى قدرتها في سيناريوهات هندسية لأجهزة حقيقية. إن معظم الاختبارات الحالية تركز على المهام الفرعية ولا تجمع بينها بشكلٍ كامل، مثل [التنقل](/tag/التنقل) في المستودعات (repository navigation) والتصميم الإلكتروني الآلي (Electronic [Design](/tag/design) [Automation](/tag/automation)).
يتوجب علينا هنا أن نقدم "[Phoenix-bench](/tag/phoenix-bench)"، وهو مجموعة متزامنة تتكون من 511 حالة مُتحققة باستخدام Verilator من 114 مستودعًا على [GitHub](/tag/github). هذه المجموعة مزودة بتحديثات من المطور، وعلامات تدفق التصميم، واختبارات للتحقق من [نجاح](/tag/نجاح) وفشل الحالات. ومن المثير للاهتمام، أن استخدام "[Phoenix-bench](/tag/phoenix-bench)" سمح بإجراء [تقييم](/tag/تقييم) موحد لأربعة [وكلاء](/tag/وكلاء) تجاريين وثمانية هياكل قائمة على [الوكالة](/tag/الوكالة) [عبر](/tag/عبر) أربعة [أنظمة](/tag/أنظمة) أساسية من [نماذج اللغات](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)).
لقد أسفر [البحث](/tag/البحث) عن ثلاث نتائج رئيسية:
(i) تُظهر النتائج أن [البرمجيات](/tag/البرمجيات) والأجهزة هما مهمتان هندسيتان مختلفتان تمامًا. يُظهر [البحث](/tag/البحث) أن نفس الوكيل يمكن أن يُسجل [خسائر](/tag/خسائر) تتراوح بين 37% إلى 58% عند الانتقال من "[SWE-bench](/tag/swe-bench) Verified" إلى "[Phoenix-bench](/tag/phoenix-bench)". وذلك لأن [الأخطاء](/tag/الأخطاء) في [الأجهزة](/tag/الأجهزة) تنتشر [عبر](/tag/عبر) وحدات مُثبّتة بالتوازي وليس [عبر](/tag/عبر) المخطط التقليدي للبرمجيات.
(ii) تتركز الإخفاقات بشكل كبير على [الأخطاء](/tag/الأخطاء) في تدفقات [التحكم](/tag/التحكم) في التصميم، وأخطاء [اختبارات](/tag/اختبارات) التحقق، والحالات الصعبة التي تتطلب [تتبع](/tag/تتبع) تدفق الإشارة [عبر](/tag/عبر) الهياكل المتداخلة.
(iii) إن [دقة](/tag/دقة) التحديد لها تأثير كبير أكثر من مجرد التحديد ذاته: فقد حصل التحديد المثالي على مستوى الملفات على زيادة بسيطة في المعدل، بينما حقق جولة واحدة من [التغذية](/tag/التغذية) المرتدة من حالات الاختبار زيادة بمعدل 42% إلى 45%.
بهذه النتائج، يتضح أن الجهود المبذولة لدمج [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي) في [هندسة الأجهزة](/tag/[هندسة](/tag/هندسة)-[الأجهزة](/tag/الأجهزة)) تتطلب فهمًا أعمق لاستراتيجيات وطرق جديدة للتغلب على التحديات.
ما هي توقعاتكم لمستقبل [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي) في [مجالات جديدة](/tag/مجالات-جديدة) مثل [هندسة الأجهزة](/tag/[هندسة](/tag/هندسة)-[الأجهزة](/tag/الأجهزة))؟ شاركونا في [التعليقات](/tag/التعليقات).
هل الذكاء الاصطناعي القائم على الوكالة جاهز لهندسة الأجهزة في العالم الحقيقي؟ استكشاف عميق مع Phoenix-bench
تسليط الضوء على مدى جاهزية أنظمة الذكاء الاصطناعي القائم على الوكالة في التعامل مع تحديات هندسة الأجهزة. دراسة جديدة تكشف عن الابتكارات والتحديات في هذا المجال.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
