في عالم الذكاء الاصطناعي السريع التطور، يأتي نموذج Lance ليحدث ثورة في كيفية فهم وتوليد المحتوى المتعدد الوسائط. يتميز هذا النموذج الجديد بخفته ودعمه لفهم وتوليد الصور والفيديو، دون الاعتماد على زيادة سعة النموذج أو التصاميم التي تهيمن عليها النصوص والصور.

يمثل Lance تجسيدًا لمفهوم النمذجة الموحدة (Unified Modeling) استنادًا إلى التدريب التعاوني لمهام متعددة. يقوم هذا النموذج على مبادئ أساسية تتمثل في نمذجة السياق الموحد (Unified Context Modeling) ومسارات القدرات المتفككة (Decoupled Capability Pathways). كما يتم تدريبه من البداية باستخدام هيكلية مخصصة تعمل بتقنية خلط تدفقات الخبراء (Dual-Stream Mixture-of-Experts) على تسلسلات متعددة الوسائط المتداخلة المشتركة، مما يعزز من التعلم المتزامن للسياقات والقدرات.

يتضمن Lance أيضًا ترميزًا موضعيًا دوارًا (Rotary Positional Encoding) يراعي الأبعاد المختلفة للبيانات البصرية، مما يساعد في تقليل التداخل بين الرموز البصرية المختلفة وتعزيز مستوى التوافق بين المهام. خلال عملية التدريب، يتبنى Lance منهجًا تدريجيًا لتدريب المهام المتعددة، مع أهداف مدفوعة بالقدرات وتنظيم مخصص للبيانات، مما يقوي كفاءة الفهم الدلالي (Semantic Comprehension) وأداء توليد المحتوى البصري.

تشير النتائج التجريبية إلى أن Lance يتفوق بشكل ملحوظ على النماذج الموحدة مفتوحة المصدر الحالية في توليد الصور والفيديو، مع الحفاظ على قدرات قوية في الفهم المتعدد الوسائط. لمزيد من المعلومات، يمكن زيارة الموقع الرسمي رابط. في عالم الذكاء الاصطناعي، يعد Lance نقطة تحول، فكيف تعتقد أنه سيؤثر على المستقبل؟ شاركونا آراءكم في التعليقات!