في عالم تتسارع فيه تكنولوجيا الفيديو، سادت طريقة استرجاع اللحظات الفورية التي تركز على الأحداث. ومع ذلك، بدأت تظهر فجوة جدية تتعلق بكيفية فهم تلك اللحظات من حيث المعنى والسياق. هنا يأتي دور مشروع **StoryTR**، الذي يعد الأول من نوعه في اختبار قدرات استرجاع اللحظات في الفيديو مع التركيز على المحتوى السردي.

تواجه النماذج التقليدية صعوبة في فهم لماذا تعتبر اللحظات الهامة مهمة، وهذا يعود إلى نقص في ما يعرف بـ **نظرية العقل (Theory of Mind)**، وهي القدرة الإدراكية على استنتاج النوايا والاعتقادات غير الظاهرة من الملاحظات السطحية. المشروع يعتمد على مجموعة من مقاطع الفيديو القصيرة (shorts/reels) التي تضمنت 8.1 ألف عينة، مما يجعلها منصة مثالية لاختبار هذا الأمر.

تتميز مقاطع الفيديو هذه بكثافتها المعلوماتية العالية، حيث تُظهر دلالات متعددة تتطلب فهماً عميقاً. على سبيل المثال، نظرة مصحوبة بتنهد قد تحمل معاني مختلفة تماماً عن النظرة وحدها. ورغم أن الإدراك المتعدد الأنماط (multimodal perception) يعد جزءاً أساسياً، إلا أن فهم **نظرية العقل** ضروري لفك رموز تلك المعاني الدقيقة.

لتطوير هذه القدرة في النماذج، اقترح الباحثون **خط أنابيب البيانات الوكيلة (Agentic Data Pipeline)**، الذي يهدف إلى توليد بيانات تدريبية تحتوي على سلاسل ثلاثية المستويات متعلقة بنظرية العقل، تشمل: فك رموز النوايا، والتفكير السردي، وتحديد الحدود.

تظهر التجارب الفجوة الكبيرة في القدرة على التفكير: فقد حقق نموذج Gemini-3.0-Pro متوسط 0.53 في نسبة التقاطع (Avg IoU) على مجموعة بيانات StoryTR. لكن النموذج **Shorts-Moment** الذي تم تدريبه على بيانات موجهة بنظرية العقل، قد حصل على تحسين بنسبة +15.1% مقارنةً بالنماذج الأساسية. وهو ما يُظهر أن قدرة السرد تتفوق على عدد المعلمات في تحقيق نتائج أفضل.

اجعلوا هذا التطور يشكل بداية لنقاش مثير في عالم الذكاء الاصطناعي! ما رأيكم في أهمية فهم السرد في النماذج الذكية؟ شاركونا آرائكم في التعليقات.