مع تقدم تقنية الذكاء الاصطناعي، يواجه الباحثون تحديات جديدة تتعلق بالانتقال من بيئات النصوص فقط إلى بيئات متعددة الوسائط المعقدة. في هذا السياق، قد عُرف مؤخرًا وجود فجوة في الإدراك والتفكير بين نماذج الرؤية واللغة (Vision-Language Models - VLMs) والتي غالبًا ما تتجاهل معلومات حيوية للمهمة المنتظرة.

في هذا البحث، نقدم لكم PRISM الذي يعد بمثابة الإطار الثوري الذي يمزج بين الإدراك (VLM) والتفكير (LLM) من خلال استخدام خط أنابيب ديناميكي للمسألة-الإجابة (Dynamic Question-Answer - DQA). ما يميز PRISM هو أنه لا يتقبل محض وصف VLM بشكل سلبي، بل ينتقده، ويستفسر منه بأسئلة هادفة، مما يؤدي إلى توليد وصف مختصر للصورة. هذه التبادلات المغلقة بين النموذجين تؤدي إلى فهم دقيق وموجه بشكل أفضل للمشهد القائم.

قد قمنا بتقييم PRISM من خلال معايير ALFWorld وRoom-to-Room (R2R)، وأظهرت النتائج ما يلي: (1) PRISM يتفوق بشكل كبير على النماذج الأخرى المعتمدة على الصور، (2) أن خط أنابيب الإدراك التفاعلي القائم على الأهداف يوفر مكاسب منهجية وكبيرة، (3) PRISM يعمل بشكل تلقائي تمامًا، مما يقضي على الحاجة إلى أسئلة أو إجابات مصنوعة يدويًا.

بفضل PRISM، يمكن أن يتوقع الوكلاء المعززين بالذكاء الاصطناعي اتخاذ قرارات أكثر دقة وفعالية في البيئات الديناميكية!