شهدت [أبحاث](/tag/أبحاث) [سلامة](/tag/سلامة) [نماذج [اللغات](/tag/اللغات) الضخمة](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)-الضخمة) ([LLM](/tag/llm)) تسارعاً ملحوظاً في السنوات الأخيرة، مما جعل المؤسسات البحثية تعتمد على [المعايير](/tag/المعايير) (benchmarks) كأداة أساسية لرصد التوجهات وتسهيل [المقارنات](/tag/المقارنات) المنهجية. ومع ذلك، تفتقر هذه [المعايير](/tag/المعايير) إلى [تقييم](/tag/تقييم) شامل لجودة الأكواد وقابلية التشغيل، مما يؤدي إلى أسئلة مثيرة حول اعتماد المجتمع على بعض [المعايير](/tag/المعايير) دون غيرها.

في [دراسة](/tag/دراسة) جديدة، تم [تحليل](/tag/تحليل) 31 معياراً لسلامة [نماذج [اللغات](/tag/اللغات) الضخمة](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)-الضخمة) تغطي مجموعة من التحديات مثل [حقن الطلبات](/tag/حقن-الطلبات) (prompt injection) وهروب [النماذج](/tag/النماذج) (jailbreak) والهلوسة (hallucination)، مع تضمين 382 ورقة بحثية غير معيارية كمجموعة [تحكم](/tag/تحكم). استخدمت هذه [الدراسة](/tag/الدراسة) [أساليب](/tag/أساليب) تحليلية أوتوماتيكية، بالإضافة إلى [اختبارات](/tag/اختبارات) تشغيلية بشرية استغرقت أكثر من 220 ساعة.

النتائج كانت مدهشة: فقط 39% من مستودعات [المعايير](/tag/المعايير) قادرة على التشغيل بدون تعديلات، و16% فقط تقدم أدلة تركيب مثالية، في حين أن 6% فقط تتضمن اعتبارات أخلاقية على الرغم من احتوائها على [محتوى](/tag/محتوى) ضار محتمل. تعكس هذه العيوب الثغرات التي أظهرت عدم التحسن الملحوظ خلال فترة [الدراسة](/tag/الدراسة).

عند [تحليل](/tag/تحليل) عوامل الاعتماد، تبين أن الاعتماد على [المعايير](/tag/المعايير) يتزامن مع شهرة المؤلفين وقابلية تشغيل الأكواد، وليس مع [معايير](/tag/معايير) [جودة الأكواد](/tag/جودة-الأكواد) مثل درجات Pylint أو الصيانة، مما يشير إلى أن اختيار المجتمع لهذه [المعايير](/tag/المعايير) لا يكافئ [المعايير](/tag/المعايير) العالية للبرمجة.

استناداً إلى هذه النتائج، تم تحديد [مخاوف](/tag/مخاوف) تتعلق بالسلامة والموثوقية، حيث أن بعض مستودعات [المعايير](/tag/المعايير) تعرض [محتوى](/tag/محتوى) ضار بدون [تحذيرات](/tag/تحذيرات) أخلاقية أو [قيود](/tag/قيود) على الوصول، مما يجعلها بمثابة [موارد](/tag/موارد) خبيثة غير محمية. وعندما تتطلب [المعايير](/tag/المعايير) تعديلات عشوائية للتشغيل، قد لا تكون [التقييمات](/tag/التقييمات) اللاحقة [عبر](/tag/عبر) الأوراق البحثية قابلة للمقارنة.

تقديم [دراسات حالة](/tag/[دراسات](/tag/دراسات)-حالة) توضح هذه العواقب العملية، توصي [الدراسة](/tag/الدراسة) أيضاً بقائمة مراجعة محددة تساعد المساهمين في [المعايير](/tag/المعايير) على [تحسين](/tag/تحسين) جودة الأكواد، الوثائق، والممارسات الأخلاقية.