في عالم الذكاء الاصطناعي، تعد [نماذج العمل](/tag/[نماذج](/tag/نماذج)-العمل) اللاتينية (Latent Action [Models](/tag/models) - LAMs) رائدة في القدرة على [التعلم](/tag/التعلم) من مقاطع الفيديو غير المصنفة [عبر](/tag/عبر) [استنتاج](/tag/استنتاج) الأفعال المجردة بين الإطارات المتتالية. لكن، يواجه هذا النوع من [النماذج](/tag/النماذج) تحدياً جوهرياً يتمثل في الموازنة بين تجريد الأفعال وموثوقية [التوليد](/tag/التوليد). وللتغلب على هذا التحدي، قدم [باحثون](/tag/باحثون) النموذج الجديد '[ديلا](/tag/ديلا)' (DiLA) الذي يعتمد على تفكيك [محتوى](/tag/محتوى) النموذج البنيوي.
الفكرة الأساسية وراء [ديلا](/tag/ديلا) تنطوي على فكرة أن عملية التفكيك والتعلم للأفعال اللاتينية تتطور معاً، حيث يعمل اختناق [التنبؤ](/tag/التنبؤ) المدمج في عملية [التعلم](/tag/التعلم) كدافع لتفكيك المحتوى، مما يجبر النموذج على [تصفية](/tag/تصفية) التخطيطات المكانية في مسار بنيوي بينما يتم تحميل التفاصيل البصرية إلى مسار [محتوى](/tag/محتوى) منفصل.
يؤدي هذا التآزر إلى مساحة [عمل](/tag/عمل) لاتينية ذات بنية مستمرة وذات دلالة، دون المساس بجودة [التوليد](/tag/التوليد). ونتيجة لذلك، يحقق [ديلا](/tag/ديلا) نتائج متفوقة في جودة [توليد](/tag/توليد) الفيديو، ونقل الأفعال، والتخطيط البصري، وقابلية الفهم المعقدة.
تُثبت هذه الاكتشافات أن [ديلا](/tag/ديلا) يمثل إطاراً موحداً يحقق تجريد الأفعال على مستوى عالٍ وجودة [توليد](/tag/توليد) عالية، مما يدفع حدود [التعلم الذاتي](/tag/[التعلم](/tag/التعلم)-الذاتي) في [نماذج العالم](/tag/[نماذج](/tag/نماذج)-العالم) إلى آفاق جديدة.
ديلا: نموذج العالم بالعملات اللاتينية المفككة يغير قواعد اللعبة في التعلم الذاتي!
تقدم دراسة جديدة نموذج ديلا (DiLA) الذي يعتمد على تفكيك العملات اللاتينية لحل مشكلات التعلم الذاتي في نماذج العالم. يساهم هذا الابتكار في تحسين جودة الفيديو وتفسير الأفعال بشكل أكبر.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
