أعلنت مجموعة من الباحثين عن تطوير نموذج جديد يُدعى Valley3، نموذج لغوي متعدد الوسائط (Multi-Modal Large Language Model) مخصص لتحسين مهام التجارة الإلكترونية على مستوى عالمي. يجمع هذا النموذج بين العديد من الوسائط من نصوص وصور ومقاطع فيديو وصوت، مما يتيح له فهمًا شاملاً وقدرات استدلالية متقدمة.

تتضمن المميزات الأساسية لـ Valley3 قدرته الفريدة على معالجة الصوت بطرق متعددة اللغات، مما يساهم في تقديم تجارب تسوق سلسة، خاصة في سيناريوهات الفيديو القصير. لتحقيق ذلك، تم تصميم عملية تدريب متقدمة تتكون من أربع مراحل، حيث يكتسب Valley3 تدريجياً فهم الصوت، متابعة التعليمات عبر الوسائط المختلفة، معرفة بمجال التجارة الإلكترونية، وقدرات على التفكير بعيدة المدى.

بعد التدريب الرئيسي، خضع Valley3 لعمليات تحسين إضافية تركز على تعزيز قدراته على التفكير العميق، حيث عرض نمطين من التفكير – أحدهما بسيط والآخر معقد – مما يتيح توازنًا بين الكفاءة في المهام البسيطة والتفكير العميق في التطبيقات المعقدة.

أيضًا، تم تزويد Valley3 بإمكانيات بحث نشطة، مما يسمح له باستدعاء أدوات بحثية واكتساب المعلومات الضرورية لمهام البحث العميق في التجارة الإلكترونية. ولتقييم قدرات Valley3 بشكل شامل، تم إنشاء مقياس أداء يتضمن ست مهام، حيث أظهرت النتائج التجريبية أن Valley3 يتفوق باستمرار على النماذج السائدة، مما يجعله خياراً رائداً في مجال التجارة الإلكترونية.