تمثل الرؤية النشطة، التي تُعرف أيضًا بالإدراك النشط، مفهومًا جوهريًا لتحديد كيفية وأين يتم البحث لجمع المعلومات المهمة للمهام. ويُعتبر ذلك عنصرًا حيويًا في تحسين الإدراك واتخاذ القرارات، سواء عند البشر أو الوكلاء المتطورين. ومع ازدياد التركيز على نماذج اللغات متعددة الوسائط (Multimodal Large Language Models - MLLMs) بوصفها المخططين المركزيين في الأنظمة الروبوتية، لاحظ الباحثون فجوة كبيرة في كيفية تزويد هذه النماذج بقدرات الإدراك النشط.

في دراستنا الأخيرة، قمنا بتقديم تعريف منهجي لمهام الإدراك النشط القائمة على MLLM، حيث أظهرنا أن استراتيجية الاقتراب من الهدف لـ GPT-o3 يمكن اعتبارها حالة خاصة. ومع ذلك، تواجه هذه الاستراتيجية مستويات منخفضة من الكفاءة واختيارات غير دقيقة للمناطق المراد البحث فيها.

لذلك، نقدم نظام ACTIVE-o3، وهو إطار تعلم معزز يعتمد على تقنية GRPO، ويضم إمكانيات الإدراك النشط. يستخدم تصميمًا معياريًا لحساسات الإدراك مع مكافأة ثنائية الشكل، مما يمكّن ACTIVE-o3 من تعلم استراتيجيات فعالة ومستقرة لاختيار المناطق بشكل مستقل، دون الحاجة للإشراف المباشر.

قمنا أيضًا بإرساء معيار شامل يغطي المهام في البيئات المفتوحة، بما في ذلك تحديد المواقع الدقيقة للأشياء الصغيرة والكثيفة، بالإضافة إلى السيناريوهات المتخصصة مثل استشعار عن بُعد، القيادة الذاتية، والت segmentation التفاعلي. أظهرت النتائج التجريبية أن ACTIVE-o3 تعزز بشكل كبير قدرات الإدراك النشط مقارنة بالأساليب التقليدية. بالإضافة إلى ذلك، تظهر دراستنا أن نظام ACTIVE-o3 لا يحافظ فقط على القدرة العامة لنموذج الإدراك، بل يمكن أيضًا استخدامه كإجراء بديل للاستفادة من بيانات الإدراك، مما يحسن الأداء في المعايير مثل RealWorldQA وMME.

ندعوكم للتفاعل معنا ومشاركة آرائكم حول هذا التطور الثوري في مجال الذكاء الاصطناعي! ما رأيكم في هذه التقنية الجديدة؟