في عالم الذكاء الاصطناعي، تُعتبر تحديات توجيه استعلامات نماذج اللغات الضخمة (Large Language Models) من بين أصعب القضايا التي تواجه المهندسين اليوم. تقليديًا، تعتمد أنظمة التوجيه المعروفة على ميزات سطحية، مثل تسميات المجالات والكلمات الرئيسية وعدد الرموز، متجاهلةً variance within-domain التي تحدد نجاح النموذج بشكل فعلي. ومع تكاليف النماذج الرائدة التي تتراوح بين عشرة ومئة ضعف تكاليف نماذج الوزن المفتوح المحلية، فإن كل توفير صغير ينعكس بشكل مباشر على فاتورة السحابة في نطاق الإنتاج.

في هذا السياق، يُبرز مشروع Brick كحل مبتكر يجمع بين دقة الأداء وكفاءة التكاليف. يعتمد Brick على تقييم كل نموذج وفقًا لستة أبعاد قدرات، ويقوم بدمج ذلك مع تقدير لصعوبة الاستعلام لكل طلب. عبر قاعدة هندسية معاقبة للتكلفة، يُمكن للمشغلين العمل على التحكم بتفضيلاتهم بين تحقيق أقصى جودة وأقصى توفير أثناء الوقت المحدد للنشر.

وفقًا للاختبارات، حقق Brick دقة تصل إلى 76.98% عند أقصى جودة، متفوقًا على أفضل نموذج فردي (75.02%) وجميع أنظمة التوجيه المختبرة. وعند استخدام منظور محايد فيما يتعلق بالتكلفة والجودة، حصل Brick على دقة تصل إلى 74.11% بتكلفة أقل بمقدار 4.71 مرة مقارنةً بالاستخدام الدائم لأقوى نموذج. وفي حال تم ضبط النظام على الحد الأدنى من التكلفة، فقد تم خفض التكاليف بمعدل 22.15 مرة مع فقدان دقة بمقدار 11.85 نقطة. كما انخفض متوسط زمن الاستجابة من 51.2 ثانية إلى 22.8 ثانية، مما يُظهر فعالية Brick في حماية كفاءة الأداء.