في عالم الذكاء الاصطناعي، تعد [نماذج العمل](/tag/[نماذج](/tag/نماذج)-العمل) اللاتينية (Latent Action [Models](/tag/models) - LAMs) رائدة في القدرة على [التعلم](/tag/التعلم) من مقاطع الفيديو غير المصنفة [عبر](/tag/عبر) [استنتاج](/tag/استنتاج) الأفعال المجردة بين الإطارات المتتالية. لكن، يواجه هذا النوع من [النماذج](/tag/النماذج) تحدياً جوهرياً يتمثل في الموازنة بين تجريد الأفعال وموثوقية [التوليد](/tag/التوليد). وللتغلب على هذا التحدي، قدم [باحثون](/tag/باحثون) النموذج الجديد '[ديلا](/tag/ديلا)' (DiLA) الذي يعتمد على تفكيك [محتوى](/tag/محتوى) النموذج البنيوي.

الفكرة الأساسية وراء [ديلا](/tag/ديلا) تنطوي على فكرة أن عملية التفكيك والتعلم للأفعال اللاتينية تتطور معاً، حيث يعمل اختناق [التنبؤ](/tag/التنبؤ) المدمج في عملية [التعلم](/tag/التعلم) كدافع لتفكيك المحتوى، مما يجبر النموذج على [تصفية](/tag/تصفية) التخطيطات المكانية في مسار بنيوي بينما يتم تحميل التفاصيل البصرية إلى مسار [محتوى](/tag/محتوى) منفصل.

يؤدي هذا التآزر إلى مساحة [عمل](/tag/عمل) لاتينية ذات بنية مستمرة وذات دلالة، دون المساس بجودة [التوليد](/tag/التوليد). ونتيجة لذلك، يحقق [ديلا](/tag/ديلا) نتائج متفوقة في جودة [توليد](/tag/توليد) الفيديو، ونقل الأفعال، والتخطيط البصري، وقابلية الفهم المعقدة.

تُثبت هذه الاكتشافات أن [ديلا](/tag/ديلا) يمثل إطاراً موحداً يحقق تجريد الأفعال على مستوى عالٍ وجودة [توليد](/tag/توليد) عالية، مما يدفع حدود [التعلم الذاتي](/tag/[التعلم](/tag/التعلم)-الذاتي) في [نماذج العالم](/tag/[نماذج](/tag/نماذج)-العالم) إلى آفاق جديدة.