في عالم الذكاء الاصطناعي، يُعد استنتاج القوانين الفيزيائية في النماذج التوليدية أحد أهم التحديات التي تواجه الباحثين والمطورين. جاء مشروع PhyGround ليقدم حلاً مبتكرًا لتقييم هذا الاستنتاج، فيما يتعلق برسم الفيديوهات بناءً على قواعد الفيزياء.

تتزايد استخدامات نماذج العالم التوليدية (Generative World Models) بشكل مستمر، حيث يُتوقع من المحاكيات التي تم تطويرها الالتزام بالقوانين الفيزيائية التي تنظم الديناميكيات الواقعية. إلا أن التحقق من مدى مطابقة الفيديوهات المولّدة لهذه القوانين يُعد أمرًا صعبًا. فبرغم التقدم المحرز من خلال المعايير الفيزيائية الحالية، لا تزال هناك ثلاث تحديات رئيسية تقف عائقًا أمام التقييم الدقيق:

1. **إطارات التقييم الواسعة** التي تخفي الأخطاء الخاصة بالقوانين.
2. **التحيزات في الاستجابة** والإرهاق الذي يقوض من موثوقية الأحكام المُعطاة.
3. **المقيّمين الآليين** غير المستشعرين للفيزياء أو الذين يصعب تدقيقهم.

لتجاوز هذه التحديات، قامت PhyGround بتقديم معيارٍ مُعتمد يهدف إلى تقييم الاستدلال الفيزيائي في توليد الفيديوهات. يتضمن هذا المعيار 250 اختبارًا مُختارًا بعناية، كل منها مصحوب بنتيجة فيزيائية متوقعة وتصنيف لـ 13 قانونًا فيزيائيًا تشمل ميكانيكا الأجسام الصلبة، ديناميكا السوائل، والبصريات. كما تم تصميم أسئلة فرعية لكل قانون لتعزيز دقة التقييم.

تُظهر دراسة واسعة النطاق خضعت للتحليل من قبل 459 مُقيّمًا، أن التقييمات المستمدة أسفرت عن 5,796 تقييمًا كاملاً وأكثر من 37.4 ألف علامة دقيقة. وقد أظهرت النتائج المتبقية بعد عملية تحكم الجودة تباينات عالية بين الأنماط المختلفة.

للمساعدة في التقييم الآلي القابل للتكرار، تم إصدار PhyJudge-9B، وهو قاضٍ متخصص في الفيزياء. وقد حققت PhyJudge-9B نسبة تحيز جمعي أقل بكثير مقارنة بالنموذج Gemini-3.1-Pro (3.3% مقابل 16.6%).

للمزيد من المعلومات والبيانات التفصيلية، يمكنكم زيارة الصفحة الرسمية للمشروع [هنا](https://phyground.github.io/). ما رأيكم في هذا التطور في تقييم النماذج التوليدية؟ شاركونا آرائكم في التعليقات!