في عالم الذكاء الاصطناعي، تظل عملية تدريب نماذج الفيديو الكبيرة (Video Large Language Models) لتقديم استنتاجات معقدة تمثل تحديًا كبيرًا. تعود الصعوبات إلى مكافآت التسلسل النادرة ونقص تحديد الأجزاء الدقيقة من عملية الاستنتاج على مدار الزمن. هنا يأتي دور تقنية VISD.

تعتبر VISD نهجًا مبتكرًا في التشتيت الذاتي المنظم (Structured Self-Distillation). يتيح هذا الإطار الجديد تقديم معلومات خاصة قياسية تحسن من جودة تفكير الفيديو. من خلال استخدام نموذج قضاة مدركة للفيديو، تُصنف جودة الاستنتاج على عدة جوانب مثل دقة الإجابة والاتساق المنطقي والتعزيز الزمني المكاني. هذا النوع من التغذية الراجعة المنظّمة يوفر توجيهًا دقيقًا لنموذج المعلم مما يُسهم في تعزيز التعلم عند مستوى الرموز بشكل فعال.

بالإضافة إلى ذلك، يعتمد VISD على آلية فصل قوة الاتجاه، حيث يتم تحديد اتجاه التحديث من خلال مكافآت معينة، بينما تضبط الإشارات الخاصة المنظّمة أحجام تحديث الرموز. يدعم هذا التصميم تحقيق تعيين دقيق وتناسق دلالي، مما يعزز من مصداقية التفكير وكفاءة التدريب.

كما تعتمد VISD على جدول تعليمي واستقرار نموذج المعلم القائم على الحسابات المتحركة (EMA)، مما يساهم في تحقيق تحسينات قوية على مدى تسلسلات الفيديو الطويلة. أظهرت التجارب على معايير متنوعة أن VISD تتفوق بشكل مستمر على الأسس القوية، مما يحسن دقة الإجابات وجودة التعزيز الزمني المكاني. يُذكر أن هذه التقنية تُمكن من تحقيق هذه المكتسبات تقريبًا بمرتين أسرع في خطوات التحسين، مما يبرز فعالية الإشراف الذاتي المنظم في تعزيز الأداء وكفاءة العينة لنماذج الفيديو الكبيرة.