في عالم متسارع التطور، حيث تكتسب نماذج اللغات الضخمة (Large Multimodal Models) الشهرة يوماً بعد يوم، تواجه محركات الاستدلال التقليدية تحديات كبيرة في دعم التوليد المتعدد الوسائط. خاصة في نماذج اللغة الصوتية، يتبين أن توليد رموز صوتية متعددة الطبقات بطريقة منفصلة غالبًا ما يتعارض مع المعايير التقليدية للتدفقات الفردية. لكن ليس بعد الآن!

لقد قمنا بتقديم مسار استدلال يعتمد على نماذج اللغات الضخمة (vLLM) يتجاوز هذه العقبات. يقدم هذا الابتكار طريقة جديدة تسمح بتنفيذ فك التصور النمطي المتأخر وتجميع العينات عبر مجاري متعددة بطريقة منسقة. ما السر وراء هذه الكفاءة؟ قررنا دمج محول صوتي متكامل يعمل على الـ GPU لأداء تخليق الموجات الصوتية من البداية للنهاية.

المثير للاهتمام هنا، هو أننا حطمنا الفكرة السائدة التي تقول بأن دعم توجيه بدون مصنف (Classifier-Free Guidance - CFG) يؤدي إلى تقليص الإنتاجية بنسبة 50%. من خلال جدولة الطلبات المشروطة وغير المشروطة في دفعة مستمرة، تمكنت تقنيتنا من الحفاظ على 80% من الإنتاجية المعتادة بدون توجيه، مانعة بذلك أعباء الدمج والمزامنة.

الأفضل من كل ذلك، لقد قررنا فتح المصدر لإطار العمل الجديد الخاص بنا، مما يتيح للمطورين والباحثين الآخرين الاستفادة والتطوير.