في عالم الذكاء الاصطناعي، أصبحت نماذج رؤية اللغة (Vision-Language Models - VLMs) تتطور بشكل متسارع، وخاصة مع استخدام طرق تعزيز التفكير المترابط (chain-of-thought prompting) والتوسع في وقت الاختبار (test-time scaling). ومع ذلك، فإن مثل هذه التحسينات غالباً ما تتحمل تكاليف استنتاجية مرتفعة بسبب السياقات البصرية الكبيرة وسلاسل التفسير الطويلة.

الآن، ماذا لو قلنا لكم أن هناك تقنية جديدة تدعى AVIS (Adaptive Visual Inference Scaling) قادرة على تحسين كفاءة الاستنتاج وتقليل الأعباء بشكل كبير؟

تعمل AVIS من خلال التركيز على محورين مترابطين: الأول هو توسيع السياق البصري (Visual Context Scaling - VCS)، الذي يحدد كمية الأدلة البصرية التي تُمرر إلى نموذج اللغة. الثاني هو توسيع التفكير البصري (Visual Reasoning Scaling - VRS)، الذي يتحكم في كمية التفسير البحثي الذي يتم القيام به أثناء الاستنتاج.

بدلاً من تحسين كل محور على حدة كما هو متبع في الطرق الحالية، تقدم AVIS سياسة خفيفة الوزن تعمل على تعديل كلاً من VCS وVRS لكل استعلام. تستخدم AVIS تقنية اقتصادية تعرف باسم تقليم تنوع المفاتيح البصرية (Key Diversity Visual - KDV) لإزالة الرموز البصرية الزائدة قبل مرحلة التهيئة، مما يقلل من الازدحام غير الضروري.

علاوة على ذلك، تستفيد AVIS من التناسق الذاتي التكيفي (adaptive self-consistency)، حيث تستخدم متنبئ صعوبة متعلّم لاختيار عدد المرات اللازمة للتفكير. كما أن AVIS متوافقة مع النماذج المعززة بمثيل ما بعد التعلم (RL post-trained VLMs) وتستمر في تقديم أداء فعّال مع الحفاظ على انخفاض التكاليف الزمنية والمعالجة.

في اختبارات متعددة ذات صلة بالصور والفيديو، أظهرت AVIS تحسيناً بمعدل دقة مقابل تكلفة حسابية، مما يجعلها خياراً جذاباً للباحثين والمطورين على حد سواء. في نهاية المطاف، فإن AVIS ليست مجرد تقنية جديدة، بل تمثل خطوة كبيرة نحو تحسين تعامل نماذج الذكاء الاصطناعي مع التحديات البصرية اللغوية المعقدة.

ما رأيكم في هذه التقنية الجديدة وكيف يمكن أن تؤثر على مستقبل الذكاء الاصطناعي؟ شاركونا في التعليقات.