تعمل نماذج اللغة البصرية (Vision-language models, VLMs) على تحقيق نتائج قوية في المهام المتعلقة بتحديد المواقع في الصور، ولكنها غالباً ما تفتقر إلى القدرة على مراقبة وتصحيح توقعاتها بشكل ذاتي. أظهرت الأبحاث الأخيرة أنه عند تحفيز نموذج VLM للتفاعل مع الصور المرسومة لتوقعاته، تنخفض دقة الأداء بشكل كبير من 79.6% إلى 48.7%.
هذا الفشل الكارثي يكشف عن فجوة أساسية بين القدرة على تحديد المواقع وموهبة التصحيح الذاتي. في مواجهة هذا التحدي، تم اقتراح مفهوم جديد تحت عنوان **التفكير البصري التكراري (Iterative Visual Thinking, IVT)**، والذي يمثل إطار عمل مغلقاً حيث يقوم النموذج بتوقع صندوق إحاطي (bounding box)، ثم يراقب التوقعات المعروضة على الصورة، ويقوم بتكرار تحسينها من خلال ردود الفعل المرئية.
يتضمن نظام التدريب على مرحلتين غلق فجوة التصحيح الذاتي: المرحلة الأولى تعتمد على استغلال توقعات النموذج الأساسية كأخطاء واقعية، مما يتيح لنموذج تعليم (teacher VLM) توليد آثار تصحيحية تتيح تدريبا دون الحاجة إلى وضع علامات بشرية. المرحلة الثانية تتضمن تطبيق تحسين سياسة مجموعات النسب (Group Relative Policy Optimization, GRPO) مع تعويض بسيط استنادًا إلى معيار IoU من أجل استقرار التحسينات متعددة الخطوات.
اعتمدت الاختبارات على مجموعة بيانات مختلطة تضم RefCOCOg، Ref-Adv، وRef-L4، حيث تم استخدام 505 عينة اختبار. أظهرت النماذج المدربة بشكل سلس باستخدام IVT تفوقا واضحا على النموذج الأساسي في جميع المقاييس: حيث ارتفعت دقة Acc@0.5 إلى 82.0% (+2.4 نقطة مئوية)، وAcc@0.7 إلى 74.1% (+3.2 نقطة مئوية)، وAcc@0.9 إلى 48.3% (+2.8 نقطة مئوية). كما ساهمت GRPO في تقليل تدهور IoU بخمس مرات، مما ساهم في استقرار مسار التحسين.
تظهر جميع التدريبات أنها استخدمت فقط 2400 عينة على وحدة معالجة رسومية واحدة (GPU)، مما يدل على أن القدرة على التصحيح الذاتي المكاني قابلة للتعلم ويمكن زراعتها على نطاق معتدل. في النهاية، يعد هذا التطور خطوة مهمة نحو تعزيز قدرات الذكاء الاصطناعي ومساعدته على التعلم من الأخطاء وتحقيق تحسينات ذات معنى.
ما رأيكم في هذا التطور؟ شاركونا في التعليقات.
تحسين القدرات البصرية: كيف يمكن للذكاء الاصطناعي أن يصحح نفسه من خلال التفكير البصري التكراري
تسعى نماذج اللغة البصرية (VLMs) إلى تحسين أداءها في تحديد المواقع لكنها تواجه تحديات في تصحيح توقعاتها. يقدم مفهوم التفكير البصري التكراري (IVT) حلاً مبتكرًا يتيح للذكاء الاصطناعي التعلم من أخطائه.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
