في عالم الذكاء الاصطناعي، يتزايد الاهتمام بتوليد الفيديو البرمجي من خلال الكود، حيث يقدم [دقة](/tag/دقة) هندسية وتناسقاً زمنياً يفوق [نماذج الانتشار](/tag/[نماذج](/tag/نماذج)-[الانتشار](/tag/الانتشار)) عند مستوى البكسل. ولكن، يبقى السؤال قائماً: هل يمكن لنماذج [اللغة](/tag/اللغة) مثل [نماذج [اللغات](/tag/اللغات) الضخمة](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)-الضخمة) (Large Language [Models](/tag/models)) إنتاج مخرجات متحركة دقيقة من الناحية المكانية؟
لإجابة هذا السؤال، تم تقديم معيار PRISM، الذي يمثل ثورة في طرق [تقييم الأداء](/tag/[تقييم](/tag/تقييم)-[الأداء](/tag/الأداء)). يتضمن هذا المعيار [مجموعة بيانات](/tag/مجموعة-[بيانات](/tag/بيانات)) واسعة تضم 10,372 ثنائية من [التعليمات](/tag/التعليمات) والرموز، مما يجعله أكبر بنحو 20 مرة من [المعايير](/tag/المعايير) السابقة في [توليد الفيديو البرمجي](/tag/[توليد](/tag/توليد)-الفيديو-البرمجي). كما أنه يستند إلى سيناريوهات مرئية مرتبطة بالمعرفة الحقيقية، عابراً للغتين: الإنجليزية والصينية، ويمتد ليغطي 437 فئة موضوعية.
تتضمن عملية [التقييم](/tag/التقييم) التي تم اقتراحها كإطار أساسي أربعة [مقاييس](/tag/مقاييس) تك complementary:
1. **موثوقية الكود** (Code-Level Reliability): تركز على إمكانية التنفيذ.
2. **التفكير المكاني** (Spatial Reasoning): تأكد من [صحة](/tag/صحة) [التخطيط](/tag/التخطيط) على مدار حلقات الرسوم المتحركة بالكامل.
3. **تعقيد المرئية الديناميكية الواعي للموجهات** (Prompt-Aware Dynamic Visual Complexity) و**الكثافة الزمنية** (Temporal Density): لتشخيص التعبير الديناميكي والنشاط الزمني.
كشفت [تقييمات](/tag/تقييمات) منهجية لسبعة [نماذج لسانية](/tag/[نماذج](/tag/نماذج)-لسانية) رائجة عن وجود فجوة مثيرة بين التنفيذ المكاني والتنفيذي، حيث يبلغ متوسط الانخفاض من معدل النجاح في التنفيذ إلى معدل النجاح المكاني حوالي 41%. وبالتالي، فإن التنفيذ القابل للتشغيل لا يعني بالضرورة الحصول على إخراج بصري متسق مكانياً.
تشير النتائج إلى أنه يجب أن يتجاوز [تقييم](/tag/تقييم) [توليد الفيديو البرمجي](/tag/[توليد](/tag/توليد)-الفيديو-البرمجي) مجرد قابلية التنفيذ. يمثل [معيار PRISM](/tag/معيار-prism) نقطة انطلاق رئيسية لشحذ [توليد الكود](/tag/[توليد](/tag/توليد)-[الكود](/tag/الكود)) بشكل متسق مكانياً. هل أنتم متحمسون لتطبيقات هذا المعيار في [مستقبل الذكاء الاصطناعي](/tag/[مستقبل](/tag/مستقبل)-الذكاء-الاصطناعي)؟
PRISM: معيار ثوري لتقييم المنطق الزمني المكاني في توليد الفيديو البرمجي
يقدم معيار PRISM مجموعة بيانات مبتكرة تضم 10,372 ثنائية من التعليمات والرموز، مما يعزز تقييم قدرة نماذج اللغة على إنتاج مقاطع فيديو متناسقة زمانياً ومكانياً. تكشف النتائج عن فجوة مثيرة بين النجاح البرمجي والتمثيل المكاني.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
