مع تقدم تقنية الذكاء الاصطناعي، يواجه الباحثون تحديات جديدة تتعلق بالانتقال من بيئات النصوص فقط إلى بيئات متعددة الوسائط المعقدة. في هذا السياق، قد عُرف مؤخرًا وجود فجوة في الإدراك والتفكير بين نماذج الرؤية واللغة (Vision-Language Models - VLMs) والتي غالبًا ما تتجاهل معلومات حيوية للمهمة المنتظرة.
في هذا البحث، نقدم لكم PRISM الذي يعد بمثابة الإطار الثوري الذي يمزج بين الإدراك (VLM) والتفكير (LLM) من خلال استخدام خط أنابيب ديناميكي للمسألة-الإجابة (Dynamic Question-Answer - DQA). ما يميز PRISM هو أنه لا يتقبل محض وصف VLM بشكل سلبي، بل ينتقده، ويستفسر منه بأسئلة هادفة، مما يؤدي إلى توليد وصف مختصر للصورة. هذه التبادلات المغلقة بين النموذجين تؤدي إلى فهم دقيق وموجه بشكل أفضل للمشهد القائم.
قد قمنا بتقييم PRISM من خلال معايير ALFWorld وRoom-to-Room (R2R)، وأظهرت النتائج ما يلي: (1) PRISM يتفوق بشكل كبير على النماذج الأخرى المعتمدة على الصور، (2) أن خط أنابيب الإدراك التفاعلي القائم على الأهداف يوفر مكاسب منهجية وكبيرة، (3) PRISM يعمل بشكل تلقائي تمامًا، مما يقضي على الحاجة إلى أسئلة أو إجابات مصنوعة يدويًا.
بفضل PRISM، يمكن أن يتوقع الوكلاء المعززين بالذكاء الاصطناعي اتخاذ قرارات أكثر دقة وفعالية في البيئات الديناميكية!
PRISM: ثورة في اتخاذ القرارات المعقدة من خلال الربط الديناميكي بين الإدراك والتفكير!
يقدم البحث الجديد PRISM إطار عمل مبتكر يجمع بين إدراك الصورة وتفكير الآلة، مما يحسن من قدرة الوكلاء المدعومين بنماذج اللغات الضخمة (LLMs) على اتخاذ القرارات في بيئات متعددة الوسائط. تجارب جديدة تظهر تفوق PRISM على النماذج الحالية بشكل ملحوظ.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
