في عالم [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي) المتطور، تبرز العديد من التحديات التي تتطلب حلولاً مبتكرة. أحدث [تقنيات](/tag/تقنيات) هذا المجال تمثلت في نظام MARS، والذي يمثل اختصاراً لـ "Multimodal [Agentic Reasoning](/tag/agentic-reasoning) with Source selection". هذا النظام تم تصميمه خصيصاً لتحدي CASTLE في حدث EgoVis 2026، حيث يتعين على المشاركين الإجابة على 185 سؤالاً مغلقاً بناءً على [مجموعة بيانات](/tag/مجموعة-[بيانات](/tag/بيانات)) CASTLE 2024.

ينتقل النظام من الاعتماد التقليدي على مقاطع الفيديو الفردية إلى نهج أكثر تعقيداً يتضمن [التفكير](/tag/التفكير) [عبر](/tag/عبر) أربعة أيام من النشاط، مع 15 منظور متزامن، ونصوص رسمية، بالإضافة إلى وسائط مساعدة متعددة، مثل [الصور](/tag/الصور) الشخصية، ومقاطع الفيديو الإضافية، وصور [الأشعة](/tag/الأشعة) الحرارية، وقياسات [معدل ضربات القلب](/tag/معدل-ضربات-القلب). يعد هذا التحول من التركيز على النصوص إلى معالجة [متعددة الوسائط](/tag/متعددة-الوسائط) تطوراً ملحوظاً في هذا المجال.

يبدأ [MARS](/tag/mars) بتكوين [ذاكرة](/tag/ذاكرة) دليلية استناداً إلى مصادر أساسية، تشمل مقاطع الفيديو والنصوص، ويضيف إليها أربع مصادر مساعدة. ولأن مقاطع الفيديو في [تحدي](/tag/تحدي) CASTLE قد تكون طويلة للغاية لتضمينها بالكامل في سياق النموذج، يتم تحويلها إلى [تسميات](/tag/تسميات) ملخصة [عبر](/tag/عبر) [تقنية](/tag/تقنية) DeepSeek، مما يسمح بالحفاظ على موارد الوسائط المساعدة الأخرى.

وقت [الاستدلال](/tag/الاستدلال) هو لحظة حاسمة، حيث يقوم [وكيل](/tag/وكيل) القرار المبني على [GPT-5.4](/tag/gpt-54) بتحديد متى ينبغي مواصلة التفكير، أو طلب نمط معين مفقود، أو تقديم إجابة، أو حتى العودة إلى خيار عشوائي في حال عدم كفاية [الأدلة](/tag/الأدلة). وبفضل هذه الاستراتيجية، جاء النظام في المركز الثاني على [لوحة المتصدرين](/tag/لوحة-المتصدرين) النهائية لتحدي CASTLE.

للاستفادة من هذه التطورات، يمكنكم زيارة مشروع [MARS](/tag/mars) على [GitHub](/tag/github) [رابط]. هل تعتقد أن هذا النظام يمكن أن يغير الطرق التي نتفاعل بها مع [البيانات](/tag/البيانات) الذكية؟ شاركونا آراءكم في [التعليقات](/tag/التعليقات).