في عالم الذكاء الاصطناعي، تعد نماذج العمل اللاتينية (Latent Action Models - LAMs) رائدة في القدرة على التعلم من مقاطع الفيديو غير المصنفة عبر استنتاج الأفعال المجردة بين الإطارات المتتالية. لكن، يواجه هذا النوع من النماذج تحدياً جوهرياً يتمثل في الموازنة بين تجريد الأفعال وموثوقية التوليد. وللتغلب على هذا التحدي، قدم باحثون النموذج الجديد 'ديلا' (DiLA) الذي يعتمد على تفكيك محتوى النموذج البنيوي.
الفكرة الأساسية وراء ديلا تنطوي على فكرة أن عملية التفكيك والتعلم للأفعال اللاتينية تتطور معاً، حيث يعمل اختناق التنبؤ المدمج في عملية التعلم كدافع لتفكيك المحتوى، مما يجبر النموذج على تصفية التخطيطات المكانية في مسار بنيوي بينما يتم تحميل التفاصيل البصرية إلى مسار محتوى منفصل.
يؤدي هذا التآزر إلى مساحة عمل لاتينية ذات بنية مستمرة وذات دلالة، دون المساس بجودة التوليد. ونتيجة لذلك، يحقق ديلا نتائج متفوقة في جودة توليد الفيديو، ونقل الأفعال، والتخطيط البصري، وقابلية الفهم المعقدة.
تُثبت هذه الاكتشافات أن ديلا يمثل إطاراً موحداً يحقق تجريد الأفعال على مستوى عالٍ وجودة توليد عالية، مما يدفع حدود التعلم الذاتي في نماذج العالم إلى آفاق جديدة.
ديلا: نموذج العالم بالعملات اللاتينية المفككة يغير قواعد اللعبة في التعلم الذاتي!
تقدم دراسة جديدة نموذج ديلا (DiLA) الذي يعتمد على تفكيك العملات اللاتينية لحل مشكلات التعلم الذاتي في نماذج العالم. يساهم هذا الابتكار في تحسين جودة الفيديو وتفسير الأفعال بشكل أكبر.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
