شهدت الأبحاث الأخيرة في مجال توليد الفيديو تقدّمًا مذهلاً لم يكن متوقعًا، حيث أظهرت النماذج المعتمدة على عمليات الانتشار (Diffusion Models) قدرات تفكير غير تقليدية. انتشرت في الأوساط الأكاديمية فرضية تفيد بأن هذه القدرات تعود إلى آلية تسمى سلسلة الإطارات (Chain-of-Frames) التي يفترض أنها تؤدي التفكير بشكل تسلسلي عبر إطارات الفيديو. لكن، تقدم الدراسة الجديدة رؤى مثيرة للجدل تتحدى هذا الافتراض وتكشف عن آلية مختلفة تمامًا.
بالإضافة إلى استعراض تحليلات نوعية وتجارب اختبار هادفة، تظهر الدراسة أن التفكير في نماذج الفيديو يحدث بشكل أساسي على طول خطوات إزالة الضجيج خلال عملية الانتشار. وبدلاً من التنقل بين الإطارات، تستكشف النماذج عددًا من الحلول المحتملة في المراحل المبكرة من إزالة الضجيج، وبعد ذلك تتقارب تدريجيًا نحو الإجابة النهائية. أطلق الباحثون على هذه العملية اسم سلسلة الخطوات (Chain-of-Steps).
تتضمن الدراسة أيضًا تحديد سلوكيات تفكيرية جديدة تعتبر حيوية لأداء النماذج، تشمل: (1) الذاكرة العاملة التي تمكن من الإشارة المستمرة؛ (2) التصحيح الذاتي والتعزيز الذي يسمح بالعودة من الحلول الوسيطة الخاطئة؛ و(3) الإدراك قبل الفعل، حيث تقوم الخطوات الأولى بتأسيس الأساس الدلالي، بينما تقوم الخطوات اللاحقة بإجراء التلاعب الهيكلي.
خلال خطوة الانتشار، تم اكتشاف تخصص وظيفي متطور داخل المحولات الانتشارية (Diffusion Transformers)، حيث تقوم الطبقات الأولى بتشفير الهيكل الإدراكي الكثيف، بينما تنفذ الطبقات الوسطى عمليات التفكير، وتقوم الطبقات الأخيرة بتوحيد التمثيلات الكامنة.
استنادًا إلى هذه الرؤى، تقدم الدراسة استراتيجية بسيطة خالية من التدريب كتجربة إثبات، تظهر كيف يمكن تحسين التفكير من خلال تجميع المسارات الكامنة من نماذج متطابقة باستخدام بذور عشوائية مختلفة.
عموماً، يوفر هذا البحث فهمًا منهجيًا لكيفية ظهور التفكير في نماذج توليد الفيديو، مما يخلق أساسًا لتوجيه الأبحاث المستقبلية لاستغلال الديناميكيات الفكرية الكامنة لنماذج الفيديو كأرضية جديدة للذكاء.
كشف أسرار التفكير في الفيديو: كيف تتجاوَز النماذج الحديثة التوقعات؟
تتجاوز التقدمات الأخيرة في توليد الفيديو ما هو متوقع بتقديم آليات تفكير معقدة. تتحدّى الدراسة الجديدة الفرضيات السابقة وتقدم رؤية جديدة حول كيفية تطوّر التفكير داخل النماذج.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
