في عالم البحث العلمي، تمثل الصور الطيفية (Spectral Images) شكلاً غنياً بالمعلومات وذو تحديات جمة أمام النماذج اللغوية الكبيرة متعددة الوسائط (Multimodal Large Language Models - MLLMs). ومع هذا الافتقار إلى الهيكلية وخصوصية المجال، تم ابتكار معيار جديد يُعرف باسم *SpecVQA*، والذي يعد خطوة رائدة في تقييم قدرة النماذج على تحليل وفهم هذه الصور المعقدة.

تغطي *SpecVQA* سبعة أنواع تمثيلية من الأطياف، مدعومة بمجموعة من الأسئلة والأجوبة التي تم توثيقها بواسطة خبراء. يهدف المشروع إلى تقييم أداء نماذج الذكاء الاصطناعي في استخلاص المعلومات المباشرة والتفكير المنطقي المتخصص.

يحتوي *SpecVQA* على 620 صورة و3100 زوج من أسئلة وأجوبة، تم انتقاؤها بعناية من أدبيات مُراجعة الأقران. ولمواجهة تحديات طول الرموز (Token Length)، نقدم نهجًا جديدًا يعتمد على أخذ عينات الطيف وإعادة بناء البيانات، مما يحافظ على الخصائص الأساسية للمنحنيات المطلوبة.

تؤكد دراسات النماذج التراكمية (Ablation Studies) على أن هذا النهج يحقق تحسنًا كبيرًا في الأداء على المعيار المقترح. كما قمنا باختبار قدرات النماذج اللغوية المتقدمة في فهم الطيف العلمي على معيارنا الجديد، مع تقديم قائمة بترتيب الأداء.

يمثل هذا العمل الثوري خطوة أساسية نحو تعزيز الفهم الطيفي في النماذج الكبيرة متعددة الوسائط، ويشير إلى اتجاهات واعدة لتمديد نماذج اللغة البصرية إلى مجالات أوسع من البحث العلمي وتحليل البيانات.