في عالم [البرمجة](/tag/البرمجة) الحديث، تُعتبر [نماذج [اللغات](/tag/اللغات) الضخمة](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)-الضخمة) (Large Language [Models](/tag/models)) [أداة](/tag/أداة) مهمة تسهم في [تسريع](/tag/تسريع) وتبسيط عملية [كتابة](/tag/كتابة) الشيفرات البرمجية. ومع تزايد الاعتماد على هذه النماذج، يأتي [تطور](/tag/تطور) [جديد](/tag/جديد) في شكل [معيار جديد](/tag/معيار-[جديد](/tag/جديد)) يُعرف باسم **DevBench**. هذا المعيار يخضع [النماذج](/tag/النماذج) لتقييم دقيق يستند إلى [بيانات حقيقية](/tag/[بيانات](/tag/بيانات)-حقيقية) من [مطورين](/tag/مطورين) حقيقيين.
**DevBench** يتضمن 1800 حالة [تقييم](/tag/تقييم) موزعة [عبر](/tag/عبر) ست [لغات](/tag/لغات) [برمجة](/tag/برمجة) رئيسية وست فئات مهام، ما يعكس الوضع الفعلي الذي يتعامل معه المطورون. الهدف من هذا المعيار هو تجنب الانحياز الناتج عن الاعتماد على مصادر فردية، من خلال استخدام [نماذج مولدة](/tag/[نماذج](/tag/نماذج)-مولدة) من عدة مقدمي [خدمات](/tag/خدمات).
ما يميز **DevBench** هو التركيز على الصلاحية البيئية، حيث يضمن عدم تلوث [بيانات التدريب](/tag/[بيانات](/tag/بيانات)-[التدريب](/tag/التدريب)) ويتيح [تشخيصات](/tag/تشخيصات) تفصيلية. يتم [تقييم النماذج](/tag/[تقييم](/tag/تقييم)-[النماذج](/tag/النماذج)) من خلال [معايير](/tag/معايير) مختلفة تشمل: [دقة](/tag/دقة) [الأداء](/tag/الأداء) الوظيفي، والقياسات المستندة إلى التشابه، وتقييمات [النماذج](/tag/النماذج) من قبل LLM، كل ذلك مع تركيز خاص على الفائدة والملاءمة [السياقية](/tag/السياقية).
قد تم [تقييم](/tag/تقييم) تسعة [نماذج](/tag/نماذج) من الطراز الأول، حيث أظهرت النتائج أن أفضل [نموذج](/tag/نموذج) حقق فقط 43.5% في معيار Pass@1، مما يؤكد أن التحديات لا تزال قائمة ويكشف عن الفروق في [الدقة](/tag/الدقة) النحوية، والتفكير الدلالي، والفائدة [العملية](/tag/العملية).
يوفر **DevBench** [رؤى](/tag/رؤى) قابلة للتنفيذ تُساعد [المطورين](/tag/المطورين) في اختيار وتحسين النماذج، وهي تفاصيل غالبًا ما تكون مفقودة في [المعايير](/tag/المعايير) الأخرى، لكنها حاسمة للاستخدام العملي وتطوير [النماذج](/tag/النماذج) المستهدفة. هذا المعيار يمثل خطوة كبيرة [نحو](/tag/نحو) [تحسين أداء](/tag/[تحسين](/tag/تحسين)-[أداء](/tag/أداء)) [نماذج الذكاء الاصطناعي](/tag/[نماذج](/tag/نماذج)-الذكاء-الاصطناعي) في البيئات الحقيقية. فلنستعد لعصر [جديد](/tag/جديد) في [تقييم](/tag/تقييم) واستخدام [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي) في [البرمجة](/tag/البرمجة)!
ديف بنش: معيار واقعي ثوري لتقييم نماذج توليد الشفرات البرمجية!
تقدم DevBench معيارًا مبتكرًا يركز على تقييم نماذج اللغات الضخمة (LLMs) في مهام إكمال الشفرات البرمجية بطريقة واقعية. يكشف نتائج جديدة حول أداء هذه النماذج ويعزز من فهم المستخدمين لمدى فعاليتها.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
