في عالم [البرمجة](/tag/البرمجة) الحديث، تُعتبر [نماذج [اللغات](/tag/اللغات) الضخمة](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)-الضخمة) (Large Language [Models](/tag/models)) [أداة](/tag/أداة) مهمة تسهم في [تسريع](/tag/تسريع) وتبسيط عملية [كتابة](/tag/كتابة) الشيفرات البرمجية. ومع تزايد الاعتماد على هذه النماذج، يأتي [تطور](/tag/تطور) [جديد](/tag/جديد) في شكل [معيار جديد](/tag/معيار-[جديد](/tag/جديد)) يُعرف باسم **DevBench**. هذا المعيار يخضع [النماذج](/tag/النماذج) لتقييم دقيق يستند إلى [بيانات حقيقية](/tag/[بيانات](/tag/بيانات)-حقيقية) من [مطورين](/tag/مطورين) حقيقيين.

**DevBench** يتضمن 1800 حالة [تقييم](/tag/تقييم) موزعة [عبر](/tag/عبر) ست [لغات](/tag/لغات) [برمجة](/tag/برمجة) رئيسية وست فئات مهام، ما يعكس الوضع الفعلي الذي يتعامل معه المطورون. الهدف من هذا المعيار هو تجنب الانحياز الناتج عن الاعتماد على مصادر فردية، من خلال استخدام [نماذج مولدة](/tag/[نماذج](/tag/نماذج)-مولدة) من عدة مقدمي [خدمات](/tag/خدمات).

ما يميز **DevBench** هو التركيز على الصلاحية البيئية، حيث يضمن عدم تلوث [بيانات التدريب](/tag/[بيانات](/tag/بيانات)-[التدريب](/tag/التدريب)) ويتيح [تشخيصات](/tag/تشخيصات) تفصيلية. يتم [تقييم النماذج](/tag/[تقييم](/tag/تقييم)-[النماذج](/tag/النماذج)) من خلال [معايير](/tag/معايير) مختلفة تشمل: [دقة](/tag/دقة) [الأداء](/tag/الأداء) الوظيفي، والقياسات المستندة إلى التشابه، وتقييمات [النماذج](/tag/النماذج) من قبل LLM، كل ذلك مع تركيز خاص على الفائدة والملاءمة [السياقية](/tag/السياقية).

قد تم [تقييم](/tag/تقييم) تسعة [نماذج](/tag/نماذج) من الطراز الأول، حيث أظهرت النتائج أن أفضل [نموذج](/tag/نموذج) حقق فقط 43.5% في معيار Pass@1، مما يؤكد أن التحديات لا تزال قائمة ويكشف عن الفروق في [الدقة](/tag/الدقة) النحوية، والتفكير الدلالي، والفائدة [العملية](/tag/العملية).

يوفر **DevBench** [رؤى](/tag/رؤى) قابلة للتنفيذ تُساعد [المطورين](/tag/المطورين) في اختيار وتحسين النماذج، وهي تفاصيل غالبًا ما تكون مفقودة في [المعايير](/tag/المعايير) الأخرى، لكنها حاسمة للاستخدام العملي وتطوير [النماذج](/tag/النماذج) المستهدفة. هذا المعيار يمثل خطوة كبيرة [نحو](/tag/نحو) [تحسين أداء](/tag/[تحسين](/tag/تحسين)-[أداء](/tag/أداء)) [نماذج الذكاء الاصطناعي](/tag/[نماذج](/tag/نماذج)-الذكاء-الاصطناعي) في البيئات الحقيقية. فلنستعد لعصر [جديد](/tag/جديد) في [تقييم](/tag/تقييم) واستخدام [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي) في [البرمجة](/tag/البرمجة)!