في عالم الذكاء الاصطناعي، تحظى نماذج العالم (World Models) باهتمام متزايد بفضل قدرتها على توفير بيئات آمنة وقابلة للقياس لتدريب الأنظمة الفيزيائية قبل نشرها في العالم الحقيقي. ومن بين الابتكارات الأخيرة في هذا المجال، يبرز نموذج PhyWorld كخيار واعد لتوليد الفيديوهات بفضل قدرته على خلق مشاهد بصرية مترابطة وواقعية.
تعتبر نماذج توليد الفيديو الضخمة (Large Video Generation Models) من الأدوات الأساسية في بناء المحاكيات، حيث يمكنها إنتاج مجموعة متنوعة من النتائج المرئية. ومع ذلك، يتطلب استخدامها كمحاكيات عالمية أن تحافظ الفيديوهات المتولدة على الحالة الفيزيائية المستمدة من المدخلات الأولية، وأن تتطور بطرق تتماشى مع المبادئ الأساسية للفيزياء.
يقدم نموذج PhyWorld حلاً مبتكرًا من خلال عملية تدريب مزدوجة، حيث يتم تحسين استمرارية الفيديو من خلال تقنيات مطابقة التدفق، مما يعزز الثبات في الخصائص البصرية والديناميات الحركية عبر الإطارات. في المرحلة الثانية، يستخدم النموذج تحسين التفضيل المباشر (Direct Preference Optimization) لضبط الديناميات المتولدة لتتناسب مع المبادئ الفيزيائية، مما يساعد على توجيه النموذج نحو نتائج ذات مصداقية فيزيائية أعلى.
لتقييم فعالية هذا النموذج، تم استخدام معايير جودة الفيديو القياسية إلى جانب معيار خاص بقياس مصداقية الفيزياء. أظهرت التجارب أن PhyWorld حقق تحسينًا في تناسق الفيديو، بمعدل درجات بلغ 0.769، متفوقًا على النماذج الأخرى التي سجلت 0.756 أو أقل. كما أن النموذج أظهر تحسنًا في المصداقية الفيزيائية، حيث حقق 3.09 مقابل 2.99 للنموذج الأكثر قوة.
تشير هذه النتائج إلى أن تحسين نماذج توليد الفيديو الضخمة باستخدام إشارات الاستمرار وتفضيلات الفيزياء يمكن أن يجعلها أدوات أكثر فعالية في تطوير أنظمة ذكاء اصطناعي فيزيائية دقيقة. ما رأيكم في هذه التطورات المذهلة؟ شاركونا في التعليقات!
PhyWorld: نموذج مبتكر لعالم يحاكي الفيزياء لتوليد الفيديو
PhyWorld هو نموذج جيل فيديو مبتكر يهدف إلى خلق مشاهد تحاكي الواقع الفيزيائي بدقة. باستخدام تقنيات متقدمة، يمثل هذا النموذج خطوة كبيرة نحو تطوير أنظمة ذكاء اصطناعي فيزيائية أكثر تقدمًا.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
