تُعتبر الرقابة على محتوى الفيديو القصير من التحديات الكبيرة التي تواجه المنصات الرقمية، حيث تطمح الشركات إلى تقديم محتوى يلبي المعايير الأخلاقية والسياسية. لقد أصبحت نماذج اللغة المتعددة الوسائط (Multimodal Large Language Models) وسيطة فعالة لفهم دلالات محتوى الفيديو، إلا أنها غالباً ما تفتقر إلى التفاصيل المحددة للسياسات المطلوبة للرقابة الموثوقة.

لتجاوز هذه العقبة، تم إدخال تقنية جديدة تُعرف باسم IPS (In-Prompt Process Supervision)، والتي توفر إطارًا مبتكرًا يدمج الإشراف ضمن عملية التحفيز. يعتمد IPS على التفكير التسلسلي ومنهجية الأسئلة المت ancillary خلال مرحلة التهيئة، مما يعزز فعالية الرقابة ويُحسن من الأداء.

ولقد أظهرت الدراسات أن IPS تتفوق باستمرار على النماذج الأساسية في جميع المعايير العامة والخاصة. وبدلاً من الاعتماد على وسوم مرجعية بشرية، فإن استبدالها بالتسميات التي تم إنشاؤها بواسطة نماذج اللغة يؤدي إلى تدهور طفيف في الأداء، مما يبرز قوة وموثوقية هذا النظام الذي يتكيف مع الإشراف الضوضائي وقابلية التوسع الكبيرة.

بفضل هذه الاكتشافات، تؤسس IPS لنموذج فعال وقابل للتطبيق للتصنيف متعدد الوسائط في إعدادات صناعية واسعة النطاق، مما يُمكن الشركات من تحسين جودة المحتوى وزيادة كفاءة الرقابة.