في عالم الذكاء الاصطناعي المتطور، تبرز العديد من التحديات التي تتطلب حلولاً مبتكرة. أحدث تقنيات هذا المجال تمثلت في نظام MARS، والذي يمثل اختصاراً لـ "Multimodal Agentic Reasoning with Source selection". هذا النظام تم تصميمه خصيصاً لتحدي CASTLE في حدث EgoVis 2026، حيث يتعين على المشاركين الإجابة على 185 سؤالاً مغلقاً بناءً على مجموعة بيانات CASTLE 2024.
ينتقل النظام من الاعتماد التقليدي على مقاطع الفيديو الفردية إلى نهج أكثر تعقيداً يتضمن التفكير عبر أربعة أيام من النشاط، مع 15 منظور متزامن، ونصوص رسمية، بالإضافة إلى وسائط مساعدة متعددة، مثل الصور الشخصية، ومقاطع الفيديو الإضافية، وصور الأشعة الحرارية، وقياسات معدل ضربات القلب. يعد هذا التحول من التركيز على النصوص إلى معالجة متعددة الوسائط تطوراً ملحوظاً في هذا المجال.
يبدأ MARS بتكوين ذاكرة دليلية استناداً إلى مصادر أساسية، تشمل مقاطع الفيديو والنصوص، ويضيف إليها أربع مصادر مساعدة. ولأن مقاطع الفيديو في تحدي CASTLE قد تكون طويلة للغاية لتضمينها بالكامل في سياق النموذج، يتم تحويلها إلى تسميات ملخصة عبر تقنية DeepSeek، مما يسمح بالحفاظ على موارد الوسائط المساعدة الأخرى.
وقت الاستدلال هو لحظة حاسمة، حيث يقوم وكيل القرار المبني على GPT-5.4 بتحديد متى ينبغي مواصلة التفكير، أو طلب نمط معين مفقود، أو تقديم إجابة، أو حتى العودة إلى خيار عشوائي في حال عدم كفاية الأدلة. وبفضل هذه الاستراتيجية، جاء النظام في المركز الثاني على لوحة المتصدرين النهائية لتحدي CASTLE.
للاستفادة من هذه التطورات، يمكنكم زيارة مشروع MARS على GitHub [رابط]. هل تعتقد أن هذا النظام يمكن أن يغير الطرق التي نتفاعل بها مع البيانات الذكية؟ شاركونا آراءكم في التعليقات.
MARS: النظام الثوري لحل تحديات الذكاء الاصطناعي في CASTLE 2026
تقرير مثير يقدم نظام MARS، الابتكار الثوري في تحدي CASTLE 2026، حيث يمزج بين معالجة المعلومات متعددة الوسائط والمسوحات الذكية. هل سيتغير مستقبل التفاعل مع البيانات الذكية؟
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
