في عالم الذكاء الاصطناعي، يتزايد الاهتمام بتوليد الفيديو البرمجي من خلال الكود، حيث يقدم دقة هندسية وتناسقاً زمنياً يفوق نماذج الانتشار عند مستوى البكسل. ولكن، يبقى السؤال قائماً: هل يمكن لنماذج اللغة مثل نماذج اللغات الضخمة (Large Language Models) إنتاج مخرجات متحركة دقيقة من الناحية المكانية؟
لإجابة هذا السؤال، تم تقديم معيار PRISM، الذي يمثل ثورة في طرق تقييم الأداء. يتضمن هذا المعيار مجموعة بيانات واسعة تضم 10,372 ثنائية من التعليمات والرموز، مما يجعله أكبر بنحو 20 مرة من المعايير السابقة في توليد الفيديو البرمجي. كما أنه يستند إلى سيناريوهات مرئية مرتبطة بالمعرفة الحقيقية، عابراً للغتين: الإنجليزية والصينية، ويمتد ليغطي 437 فئة موضوعية.
تتضمن عملية التقييم التي تم اقتراحها كإطار أساسي أربعة مقاييس تك complementary:
1. **موثوقية الكود** (Code-Level Reliability): تركز على إمكانية التنفيذ.
2. **التفكير المكاني** (Spatial Reasoning): تأكد من صحة التخطيط على مدار حلقات الرسوم المتحركة بالكامل.
3. **تعقيد المرئية الديناميكية الواعي للموجهات** (Prompt-Aware Dynamic Visual Complexity) و**الكثافة الزمنية** (Temporal Density): لتشخيص التعبير الديناميكي والنشاط الزمني.
كشفت تقييمات منهجية لسبعة نماذج لسانية رائجة عن وجود فجوة مثيرة بين التنفيذ المكاني والتنفيذي، حيث يبلغ متوسط الانخفاض من معدل النجاح في التنفيذ إلى معدل النجاح المكاني حوالي 41%. وبالتالي، فإن التنفيذ القابل للتشغيل لا يعني بالضرورة الحصول على إخراج بصري متسق مكانياً.
تشير النتائج إلى أنه يجب أن يتجاوز تقييم توليد الفيديو البرمجي مجرد قابلية التنفيذ. يمثل معيار PRISM نقطة انطلاق رئيسية لشحذ توليد الكود بشكل متسق مكانياً. هل أنتم متحمسون لتطبيقات هذا المعيار في مستقبل الذكاء الاصطناعي؟
PRISM: معيار ثوري لتقييم المنطق الزمني المكاني في توليد الفيديو البرمجي
يقدم معيار PRISM مجموعة بيانات مبتكرة تضم 10,372 ثنائية من التعليمات والرموز، مما يعزز تقييم قدرة نماذج اللغة على إنتاج مقاطع فيديو متناسقة زمانياً ومكانياً. تكشف النتائج عن فجوة مثيرة بين النجاح البرمجي والتمثيل المكاني.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
