تعتبر مهارات التفكير المتعدد الحث (Multi-hop Reasoning) في معالجة المعلومات السمعية والبصرية من الأمور المثيرة للتحدي، خاصة بالنسبة لنماذج الذكاء الاصطناعي المعتمدة على نماذج اللغة الكبيرة (Omni-LLMs). فقد أظهرت الدراسات أن الأدلة الضرورية غالبًا ما تكون نادرة، وموزعة زمنياً، ومتوفرة عبر تدفقات سمعية وبصرية متعددة.

في هذا السياق، أطلق الباحثون مؤشرين جديدين يعرفان باسم MOV-Bench، الذي يحتوي على 519 سؤال تم تنسيقها بعناية لتتطلب تفكيرًا متعدداً يتجاوز الأدلة السمعية والبصرية التلقائية. ورغم ذلك، يُظهر تحليل أداء نماذج Omni-LLMs الحالية أنها لا تزال تعاني من صعوبة في القيام بعمليات التفكير المتعدد الحث عبر الأنماط المختلفة.

للتغلب على هذه العقبة، تم تقديم إطار عمل جديد يسمى AOP-Agent، الذي يعتمد على نماذج Omni-LLMs مفتوحة المصدر. يميز AOP-Agent نفسه بقدرة على فهم البيئة المحيطة بشكل نشط، حيث يجمع بين الذاكرة الهرمية المودعة (Hierarchical Omni-modal Memory) ودورة التعاون للتفكير والتخطيط. هذا يمكن نماذج Omni-LLMs من أداء إدراك نشط بدون الحاجة إلى تدريب إضافي أو نماذج خاصة.

تظهر التجارب على MOV-Bench وOmniVideoBench أن AOP-Agent يحقق تحسينات ملحوظة في أداء التفكير، خاصةً في مقاطع الفيديو الطويلة والأسئلة المحتاجة لتفكير معقد. يعتبر هذا الإنجاز خطوة هامة نحو تحقيق فهم أعمق في كيفية تعامل الذكاء الاصطناعي مع المعلومات التي تتطلب تحليلًا شاملاً متعدد الأبعاد.

كيف برأيك يمكن أن تؤثر هذه التطورات على مستقبل الذكاء الاصطناعي؟ شاركونا آراءكم في التعليقات!