في عالم الذكاء الاصطناعي (AI)، يشهد التعلم البصري (Visual Representation Learning) تطورًا كبيرًا. يعتمد هذا التطور على تقنيات تقليل الاعتماد على الافتراضات القوية، حيث أثبتت الدراسات أن الأساليب التي تستخدم فرضيات أضعف تحقق نتائج أفضل مع زيادة البيانات والحوسبة. في السابق، كان التعلم تحت الإشراف (Supervised Learning) هو المسيطر، لكننا شهدنا تحولًا نحو التعلم ذو الإشراف الضعيف (Weakly Supervised Learning)، ثم إلى النجاح الواسع للتعلم الذاتي (Self-Supervised Learning) الذي لا يعتمد على التسميات البشرية.

ومع ذلك، فإن حتى أحدث أساليب التعلم الذاتي لا تزال تعاني من الاعتماد على فرضيات قوية مثل التعديلات (Augmentations) والتشويش (Masking) والقص (Cropping). إذا استمر هذا الاتجاه، فإن هذه الفرضيات المتبقية ستصبح عائقًا عند التعامل مع كميات ضخمة من البيانات. تؤكد تجاربنا على أن القوة المثلى للفرضيات المستندة تتناقص مع زيادة البيانات، مما يحفز البحث عن أساليب تعتمد على افتراضات أقل.

لذا، نقدم لكم مفهوم 'فرق الزمن' (Temporal Difference in Vision - TDV)، وهو باراديم جديد للتعلم الذاتي من الفيديو يجنب الافتراضات المتواجدة حاليًا، ويعتمد بدلاً من ذلك على فرضية سببية بسيطة: الماضي يسبب المستقبل. يقوم TDV بتدريب مشفر الصورة (Image Encoder) ومشفر الحركة (Motion Encoder) معًا بحيث تكون تمثيل الإطار الحالي بالإضافة إلى الحركة المرئية تعادل تمثيل الإطار التالي. وعلى الرغم من أنه لا يعتمد على أي فرضيات قوية، إلا أن TDV يضاهي الأساليب الرائدة في المهام الكثيفة، مما يضع أساسًا للتعلم التمثيلي بدون فرضيات قوية.