تشهد علوم الأحياء الفضائية (Spatial Biology) تطوراً ملحوظاً بفضل استخدام وكلاء الذكاء الاصطناعي (AI) في تحليل البيانات البيولوجية. ومع ذلك، كانت الاختبارات الحالية تركز بشكل رئيسي على المعرفة البيولوجية العامة أو خطوات التحليل المحدودة، بدلاً من القدرة على استنتاج النتائج العلمية الكاملة من القياسات الفضائية المعقدة. هنا يأتي دور معيار قياس الأداء الجديد المعروف باسم SpatialBench-Long.

تعتبر SpatialBench-Long اختباراً معيارياً مخصصاً لعلوم الأحياء الفضائية على المدى الطويل، حيث يتعين على الوكلاء الذكيين استنتاج الادعاءات البيولوجية من بيانات خام أو شبه خام وسياق تجريبي مضبوط، دون الاعتماد على طرق محددة مسبقاً. تشمل الاختبارات 24 تقييمًا تستند إلى أمثلة من الأورام السرطانية المختلفة، مثل سرطان القناة البنكرياسية (PDAC) والأورام العضلية الموجهة، وكذلك التلاعب بالجينات عبر أنظمة معقّدة.

سيحتاج المستخدمون للتعامل مع مجموعة متعلقة من البيانات، تشمل CosMx وVisium وXenium وMERFISH، وتطبيق تقنيات تسلسل RNA الفردي (scRNA-seq) وغيرها. تتم مراجعة الادعاءات العلمية المقترحة من قبل علماء مستقلين وتقييمها بشكل دقيق باستخدام مصطلحات ورموز محددة.

لقد أثبتت التجارب أن ثلاث ثنائيات من الأنموذج قد تمكنت من تحقيق نتائج متساوية في اختبار SpatialBench-Long، بمعدل نجاح يصل إلى 11.1%، مما يعكس قدرة هذه الأنظمة على استنتاج استنتاجات علمية دقيقة من بيانات معقدة. يعد هذا الاختبار خطوة كبيرة في تقدم الذكاء الاصطناعي نحو فهم أعمق وتحليل أكثر دقة في المجالات البيولوجية.