في عالم الذكاء الاصطناعي، يُعد تدريب نماذج العالم (World Models) على كميات ضخمة من مقاطع الفيديو غير المعلّمة خطوةً هامة نحو تحقيق ذكاء اصطناعي مستقل بالكامل. لكن الطريقة الشائعة اليوم التي تعتمد على ترميز (Encoding) الصور الخام إلى فضاءات خفية غير شفافة، واحتياجها إلى مفككات معقدة لإعادة البناء، تجعل هذه النماذج باهظة التكلفة وصعبة الفهم.
إليكم الحل: نموذج NOVA!
هذا الإطار الجديد لنمذجة العالم يعيد تشكيل كيفية تمثيل الحالة عبر استخدام أوزان (Weights) وميول (Biases) تمثيل عصبي ضمني يعتمد على الإحداثيات. يتم تحليل هذا التمثيل الهيكلي (Structured Representation)، مما يؤدي إلى تحويله بصرياً دون الحاجة إلى مفكك، مما يجعل النموذج خفيف الوزن وسهل الاستخدام، وبدون الحاجة إلى دقة عالية خاطئة.
علاوة على ذلك، يمكن لنموذج NOVA، كسائر نماذج العمل (Action Models)، أن يتم تصفيته إلى مولد مقطع فيديو يعتمد على السياق عبر هدف مطابقة العمل. والشيء المدهش هو أنه يمكن لنموذج NOVA فصل مكونات المشهد الهيكلية، مثل الخلفية (Background) والمقدمة (Foreground)، وحركة الإطارات (Inter-frame Motion)، مما يسهل تعديل المحتوى أو الديناميات دون التأثير على الآخر.
قمنا بالتحقق من صحة إطار العمل على عدة مجموعات بيانات صعبة، محققين تنبؤات متحكم بها قوية، ومع ذلك يعمل النموذج على وحدة معالجة رسومية عادية (Consumer GPU) بمعدل حوالي 40 مليون معلمة.
في الختام، تعزز التمثيلات الهيكلية مثل تمثيل الإحداثيات الضمنية (Implicit Neural Representations) من فهمنا للديناميات الخفية وتفتح الطريق أمام تجارب افتراضية غامرة وقابلة للتخصيص بشكل مذهل.
استكشاف نماذج العالم الجديدة: كيف يعيد نموذج NOVA تشكيل الذكاء الاصطناعي!
يقدم نموذج NOVA ثورة في تدريب نماذج العالم من خلال استخدام تمثيلات هيكلية تزيل التعقيد. باعتماده على هندسة جديدة، يعزز NOVA إمكانية فهم الديناميات الخفية ويوفر تجارب افتراضية مخصصة ومثيرة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
