في ظل [التوسع](/tag/التوسع) السريع لاستخدام [نماذج [اللغات](/tag/اللغات) الضخمة](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)-الضخمة) (Large Language [Models](/tag/models))، Th أضحى إدماجها في [سير العمل](/tag/سير-العمل) المنظم أمراً شائعاً، مما أخل بتوازن [الطاقة](/tag/الطاقة) والتكاليف [المالية](/tag/المالية) التي يتطلبها استخدامها. بين الاحتفال بالأداء الاستثنائي لهذه [النماذج](/tag/النماذج) في التقييمات، تبرز سؤال مهم: متى يمكن أن يكون النموذج الأصغر القابل للنشر محليًا "كافيًا"؟

تتجه تلك [الدراسة](/tag/الدراسة) الحديثة إلى توفير إجابات موضوعية من خلال [تقييم](/tag/تقييم) 11 نموذجًا (بما في ذلك [النماذج](/tag/النماذج) الاحتكارية والمفتوحة) على 10 مهام يومية شائعة، مثل [تلخيص](/tag/تلخيص) النصوص، تكوين الجداول، وصياغة الرسائل والعروض. ولتحقيق ذلك، تم استخدام إطار [تقييم](/tag/تقييم) مزدوج يضم نموذجين لغويين، مما أتاح [أتمتة](/tag/أتمتة) [تنفيذ المهام](/tag/[تنفيذ](/tag/تنفيذ)-المهام) وتوحيد [التقييم](/tag/التقييم) [عبر](/tag/عبر) 10 [معايير](/tag/معايير) تتعلق بجودة المخرجات، والدقة الواقعية، والمسؤولية الأخلاقية.

ومن خلال النتائج، تبين أن [نموذج GPT](/tag/[نموذج](/tag/نموذج)-gpt)-[4o](/tag/4o) يحقق أداءً متفوقًا باستمرار، ولكن بتكاليف أعلى وأثر بيئي ملحوظ. ومن المثير للاهتمام أن [النماذج](/tag/النماذج) الأصغر مثل [Gemma](/tag/gemma)-3 وPhi-4 حققت نتائج قوية وموثوقة في معظم المهام، مما يشير إلى قابليتها للاستخدام في [سياقات](/tag/سياقات) تتطلب [الكفاءة](/tag/الكفاءة) من حيث التكلفة، والنشر المحلي، أو الحفاظ على [الخصوصية](/tag/الخصوصية).

أظهر [التحليل](/tag/التحليل) العنقودي أن هناك ثلاث مجموعات من [النماذج](/tag/النماذج): [النماذج](/tag/النماذج) الشاملة ذات [الأداء](/tag/الأداء) المميز، والنماذج العمومية القادرة، وكذلك [النماذج](/tag/النماذج) المحدودة ولكن الآمنة. وقد تمت الإشارة إلى التوازنات بين الجودة، والتحكم، والاستدامة. ولاحظنا أن نوع المهمة يؤثر بشكل كبير على فعالية النموذج: كانت المهام المفاهيمية تمثل [تحديات](/tag/تحديات) لمعظم النماذج، بينما كانت المهام المتعلقة بالتجميع والتحويل [تحقق](/tag/تحقق) أداءً أفضل.

نقترح التحول من تعريف [الأداء](/tag/الأداء) الأقصى إلى [تقييم](/tag/تقييم) كفاية نابعة من [السياق](/tag/السياق) والمهام، الأمر الذي يعكس بصورة أفضل أولويات المؤسسات. هذا النهج يقدم طريقة قابلة للتطوير لتقييم [نماذج الذكاء الاصطناعي](/tag/[نماذج](/tag/نماذج)-الذكاء-الاصطناعي) من خلال منظور [الاستدامة](/tag/الاستدامة) ويوفر إرشادات عملية لنشر [نماذج [اللغة](/tag/اللغة) الضخمة](/tag/[نماذج](/tag/نماذج)-[اللغة](/tag/اللغة)-الضخمة) بشكل مسؤول.