هل تساءلت يومًا لماذا لا يمكن فهم الأحداث الفيزيائية في الفيديوهات بمجرد الأسماء المخصصة لها؟ وكأن كلمة "ارتداد" تعبر بشكل كافٍ عن سير الأحداث! هنا تأتي الانتقالات الذرية الفيزيائية (Atomic Physical Transitions - APTs) لتغيير هذه النظرة.

تعتبر APTs مجموعة من التغيرات الحالة الزمنية المكانية التي تعكس كيف تؤثر العوامل الفيزيائية على الحدث نفسه. بدلاً من مجرد تسمية الحدث، مثل "الارتداد" أو "الاحتكاك"، تقوم APTs بتفصيل عملية فهم تلك الأحداث عن طريق تسليط الضوء على التغيرات السببية المرتبطة بها.

عبر تنفيذ سلسلة من الانتقالات APT، يمكننا التعبير عن الفيديو كرواية متسلسلة للأسباب التي أدت إلى حدوث حدث معين، مما يحسن الفهم بشكل جذري. فقد تم تطوير مجموعة بيانات APT المختلطة باستخدام تكوينات بشرية والحقائق الناتجة عن المحاكيات، وقد تم تغطية 14 نوعًا من الانتقالات عبر مجالات مثل الاحتكاك والجاذبية.

تكشف التحليلات أن نماذج اللغات الكبيرة (Large Language Models - VLMs) الحالية تواجه صعوبة في استيعاب هذه التغيرات على مستوى الانتقال، حيث تقتصر القدرة على التعرف على التغيرات بنسبة لا تتجاوز 14%. لكن، تم تطوير تقنية APT-Tune الجديدة التي تُحسن من اكتشاف الانتقالات، دون أن تؤدي إلى فقدان المعلومات السابقة حول الأحداث.

من خلال استخدام 11 مليون معلمة LoRA على نموذج Qwen3-VL-2B، أظهرت نتائج APT-Tune تحسنًا ملحوظًا، مما يُبرز أهمية الانتقالات APT كوسيلة لفهم الأحداث الفيزيائية بطريقة أكثر دقة وملاءمة للإنسان. فبدلاً من أن تكون مجرد صيغة جديدة للإجابة، تعتبر APTs إشارة لتحقيق فهماً أعمق للأحداث في الفيديوهات.

فما رأيكم في هذا التطور المذهل في فهم الأحداث الفيزيائية؟ هل تعتقدون أن هذه التقنيات ستغير مستقبل تحليل الفيديوهات؟ شاركونا آرائكم في التعليقات!