قام باحثون بتطوير بروتوكول تشخيصي مبتكر يتكون من أربعة مراحل لاختبار مدى قدرة نماذج اللغة الكبيرة (Large Language Models) على فهم الفيزياء داخل أطر غير مألوفة. يعتمد هذا البروتوكول على تسجيلات مسبقة مغلقة وجلسات جديدة بين المراحل وحكم نماذج لغوية مزدوجة، مما يضمن دقة النتائج وتعزيز الثقة في التقييم.

تم تطبيق هذا البروتوكول على ثلاثة عوالم موازية في الفيزياء: عالم موحد معادلة معكوسة ($F=mv$)، إطار تاريخي (الميكانيكا الأرسطية)، وعالم معكوس متعدد المجالات (عالم التحلل). أظهرت النتائج أن معدل النجاح لنماذج مثل Claude Opus 4.7، وGPT-5.5، وGemini 3.1 Pro كان 6/15، 6/15، و0/15 على التوالي.

تظهر البيانات تبايناً ملحوظاً بين الأداء الكمي والنوعي، حيث لم تجد النماذج في عالم التحلل الاتجاه الخاطئ للتغيير، لكنها كثيراً ما أخطأت في حساب النسب بتراجعها إلى علاقات فيزيائية تقليدية. كما تم اكتشاف أن موثوقية الحكم من نماذج اللغة لا تنتقل عبر الأطر المختلفة، وأن المرحلة الأخيرة من المراجعة الذاتية كانت ضعيفة في جميع الأطر.

تم نشر كافة التعليمات الأولية والردود والقرارات وسجلات التدقيق، لتكون متاحة للبحث والرجوع إليها.