في عالم الذكاء الاصطناعي، لا تتوقف الابتكارات عن إثارة الدهشة، وآخرها هو "غطاء أو لمسة" (Glance-or-Gaze، GoG) الذي يعد نموذجاً متقدماً يهدف إلى تحسين كيفية تعامل النماذج متعددة الوسائط (Large Multimodal Models، LMMs) مع استفسارات المعلومات المعقدة. \n\nيعتبر النجاح الذي حققته هذه النماذج في فهم الصور مثيراً للإعجاب، إلا أن هناك تحديات تبرز عند التعامل مع استفسارات تتطلب معرفة متعمقة أو معلومات متغيرة، حيث يعتمد الكثير منها على معلومات ثابتة إما قديمة أو غير كافية. ورغم أن الطرق السابقة قد سعت لمعالجة هذه القيود، إلا أنها اعتمدت بشكل كبير على الاسترجاع العشوائي للصورة بالكامل، مما أدى إلى وجود فائض من المعلومات البصرية والتشويش.\n\nيقدم نظام GoG حلاً مبتكراً من خلال آلية "النظرة الانتقائية" (Selective Gaze)، التي تعزز الانتقال من مجرد الرؤية السلبية إلى التخطيط البصري النشط. ويسمح هذا النظام بديناميكية في الاختيار بين إلقاء نظرة عامة أو تركيز الانتباه على مناطق ذات قيمة عالية، مما يعزز فعالية البحث.\n\nتم تصميم استراتيجية تدريب ثنائية المراحل تتضمن تعديل سلوك GoG من خلال التوجيه الخاضع، بالإضافة إلى استخدام التعلم المعزز القابل للتكيف مع التعقيد (Complexity-Adaptive Reinforcement Learning) لتعزيز قدرة النموذج على التعامل مع استفسارات أكثر تعقيداً من خلال التفكير المتكرر. وقد أظهرت التجارب التي أجريت عبر ستة معايير أداءً رائداً، حيث أكدت دراسات الاستبعاد أن كل من "النظرة الانتقائية" و"التعلم المعزز القابل للتكيف" هما ضروريان لنجاح البحث البصري الفعال.\n\nمع هذه الابتكارات، نصل إلى آفاق جديدة في تحسين البحث عن المعلومات واستفسارات الذكاء الاصطناعي. ما رأيكم في هذا التطور المثير؟ شاركونا في التعليقات.