في عصر يتزايد فيه الاعتماد على الذكاء الاصطناعي، تظهر أهمية أنظمة البحث المتقدمة التي تجمع بين النصوص والصور.

قدمت مجموعة من الباحثين مشروع Visual-Seeker، وهو عميل بحث متعدد الوسائط (Multimodal Agent) يعتمد على الرؤية البصرية النشطة. يعتبر هذا النظام تطورًا مثيرًا في مجال نماذج اللغات الكبيرة (Large Language Models) ويهدف إلى تحسين القدرة على البحث في البيئات المفتوحة والمعقدة.

تتميز النماذج الحالية بالقدرة على معالجة المهام البصرية، لكنها غالبًا ما تعاني من مشكلات في التعرف الدقيق على الحقائق عند مواجهة سيناريوهات معقدة. لذا، جاء Visual-Seeker ليحل هذه المشكلة، ليس من خلال الاعتماد على أدوات خارجية كوسائط البحث التقليدية، بل من خلال النقر على التفاصيل البصرية الدقيقة ومتابعة الأدلة البصرية طوال عملية البحث.

تم تصميم نظام البيانات الذي يدعم الرؤية النشطة بهدف تعزيز الأداء من خلال تقديم 5,000 مسار متعدد الوسائط عالي الجودة لتدريب النماذج. وكشفت التجارب الشاملة أن Visual-Seeker يتجاوز الأنظمة التقليدية في خمسة معايير بحث متعددة الوسائط، مما يبرهن على قوته في تقديم نتائج دقيقة وموثوقة في بيئات الشبكة الواقعية.

لا تتردد في زيارة موقعهم للحصول على الكود والبيانات المتاحة: Visual-Seeker على جيثب.

كيف ترى مستقبل البحث في الذكاء الاصطناعي باستخدام رؤية بصرية نشطة؟ شاركونا آراءكم في التعليقات!