في عالم تكنولوجيا الذكاء الاصطناعي، يُعتبر تعزيز العوامل الإدراكية المتعددة الخطوة التالية نحو تحقيق ذكاء اصطناعي شامل. تعرف على مشروع أومنيغايا (OmniGAIA) الذي يعزز تفاعل الذكاء الاصطناعي عبر تسعة مجالات متعددة مثل الرؤية والصوت واللغة، ويمزج بين التفكير المعقد واستخدام الأدوات.

تسعى المركبات الحالية التي تستند إلى نماذج لغوية متعددة (multi-modal LLMs) لدمج إدراك وسائل الإعلام المتعددة، لكنها غالباً ما تكون محصورة في تفاعلات ثنائية (bi-modal) مثل تفاعل اللغة مع الرؤية. مع أومنيغايا، يتجاوز المطورون هذه الحدود ويقدمون معياراً شاملاً يقيّم وكلاء الذكاء الاصطناعي على المهام التي تتطلب تفكيراً عميقاً وتنفيذ أدوات متعددة الأدوار عبر مقاطع الفيديو والصوت والصور.

يستند تصميم أومنيغايا إلى أسلوب مبتكر يُعرف باسم الرسم البياني للأحداث متعددة الأبعاد (omni-modal event graph)، والذي يُمكن من تركيب استفسارات معقدة متعددة الحلقات مستندة إلى بيانات العالم الحقيقي، مما يُتطلب التفكير عبر الوسائط المختلفة ودمج الأدوات الخارجية.

علاوة على ذلك، يُقدم المشروع أومني أطلنطس (OmniAtlas)، وهو وكيل أساسي شامل يتبع نموذج دمج الأدوات برؤية نشطة متعددة الحواس. تم تدريبه باستخدام استراتيجيات متطورة لتحسين قدرات استخدام الأدوات ونماذج مفتوحة المصدر القائمة. هذا العمل يُعد خطوة هامة نحو تطوير وكلاء ذكاء اصطناعي أصليين يتعاملون مع السيناريوهات الواقعية بشكل فعّال.