في الآونة الأخيرة، أصبحت نماذج الرؤية-اللغة (VLMs) تكتسب شعبية متزايدة كأدوات عامة لتفسير البيانات العلمية، ولكن مدى موثوقيتها في تحليل الملاحظات الفلكية عبر وسائط متعددة لا يزال بحاجة للاختبار. ولتسليط الضوء على ذلك، تم تقديم معيار جديد باسم AstroVLBench، وهو معيار شامل يحتوي على أكثر من 4,100 حالة تم التحقق منها من قبل خبراء، تغطي خمس مهام متعددة تشمل التصوير البصري، والتداخل الراديوي، والفوتومترية متعددة الأطوال الموجية، ومنحنيات الضوء الزمنية، والطيف الضوئي.

من خلال تقييم ستة نماذج متقدمة، تبين أن الأداء يعتمد بشكل كبير على الوسائط المستخدمة: بينما كان نموذج Gemini 3 Pro الأقوى أداءً بشكل متسق عبر المهام، إلا أن نقاط القوة تختلف بشكل كبير حسب المهمة، وجميع النماذج كانت أقل أداءً بكثير مقارنة بالطرق المتخصصة في المجال. تكشف التحليلات الميكانيكية أن الأداء يعتمد ليس فقط على توجيه الانتباه إلى الميزات البصرية البارزة، بل أيضًا على ربط تلك الميزات بالمعرفة الفيزيائية.

استخدام مؤشرات وصفية تشرح ما يجب البحث عنه يحسن دقة النموذج عبر تركيز أفضل، لكن المؤشرات الفيزيائية التي تشرح لماذا تكون تلك الميزات مهمة تحقق نتائج أفضل بشكل عام وتؤدي إلى تصنيفات أكثر توازناً مع تقليل التحيز الخاص بالفئات.

اتساقًا مع هذه الصورة، عرض القياسات الأساسية بشكل جداول رقمية بدلاً من الرسوم البيانية المرسومة أدى إلى تحسين يصل إلى 13 نقطة مئوية. تظهر تحليل جودة الاستدلال أيضًا أنه، بدون توصيل فيزيائي واضح، قد تصل النماذج إلى تنبؤات صحيحة من تنبيهات ظاهرة بينما تقدم تبريرات غير دقيقة فيزيائيًا، مما يؤكد أن الدقة وحدها ليست كافية للاستخدام العلمي الموثوق. تقدم هذه النتائج الأساسيات النظامية الأولى والمتعددة الوسائط لنماذج VLMs في علم الفلك الرصدي وتحدد نقاط الضعف في التمثيل، والتأصيل، والاستدلال حيث تفشل النماذج الحالية.