مع انتقال نماذج اللغة الكبيرة (Large Language Models - LLMs) من البيئات البحثية إلى الاستخدام الفعلي في الإنتاج، أصبح من الضروري تقييم أدائها بناءً على أهداف خدمة محددة. إلا أن المنهجيات الحالية تواجه مشكلات جادة تتعلق بانحياز القياس عندما نعمل على نطاق واسع.
في دراستنا، نوضح أن أدوات القياس الشائعة تعتمد على بنى تتمحور حول عملية واحدة وتستخدم أساليب تسلسل غير متزامنة (asyncio-driven)، ما يؤدي إلى ظهور عنق زجاجة أساسي في جانب العميل عند زيادة عدد الطلبات. نستخدم نموذجًا رياضيًا لوصف العميل كمصفوفة M/G/1، ونظهر رياضيًا كيف أن قفل المترجم العالمي بلغة بايثون (Python Global Interpreter Lock - GIL) يضيف خطأً صناعيًا إلى مقاييس مثل زمن وصول أول رمز (Time to First Token - TTFT) وزمن الإصدار لكل رمز (Time Per Output Token - TPOT) عند زيادة معدلات الطلبات.
لحل هذه عدم الدقة النظامية، نقترح إطار تقييم غير متحيز يعتمد على تعدد العمليات (multi-process)، مما يضمن توزيع الحمل على جانب العميل بشكل فعال ويقلل من أوقات الانتظار. بالإضافة إلى ذلك، نقوم بتعريف مقياس مركب جديد، وهو الزمن المعدل لكل رمز من الناتج (Normalized Time Per Output Token - NTPOT)، الذي يسمح بتحليل دقيق لتأخيرات المعالجة الكلية، بما في ذلك التأخيرات الناتجة عن جدولة البيانات عبر أطوال التسلسل.
تظهر تقييماتنا التجريبية أن هذه المنهجية تنجح في عزل أداء محرك الخدمة، مما يمكّن من تصوير دقيق وقابل للتكرار لأداء نماذج اللغة الكبيرة حتى عند التعامل مع آلاف الطلبات في الثانية.
اكتشاف وتحجيم انحياز القياس في نماذج اللغة الكبيرة: كيف نحسن الأداء في بيئات الإنتاج؟
تتطلب نماذج اللغة الكبيرة (LLMs) تقييمات دقيقة في مراحل الإنتاج لتحقيق أهداف الخدمة. لكن انحياز القياس الحالي يعيق دقة هذه التقييمات، مما يستدعي طرقًا جديدة وفعالة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
