في عالم الذكاء الاصطناعي، تعد نماذج الرؤية واللغة (Vision-Language Models) واحدة من أهم التطورات التي تتيح لنا التفاعل مع البيانات بشكل أكثر فعالية. لكن، كيف يمكننا تحسين أداء هذه النماذج وضمان عدم فقدان المعلومات الأساسية؟ هنا يأتي دور التقنية الجديدة COAST (COntrastive Adaptive Semantic Token Pruning).

تعتمد معظم طرق تقليص البيانات الحالية على افتراضات حول قدرة بعض الرموز البصرية على تحقيق الفهم، حيث يتم التخلص من الرموز ذات التقييمات المنخفضة بسرعة. ولكن، ما توصل إليه الباحثون هو أن هذه الطرق غير فعالة، حيث أن الرموز التي يتم تجاهلها في الطبقات الأولى قد تصبح ضرورية لاحقًا لتفسير العلاقات المكانية والأشياء الثانوية والسياقات.

هذه التقنيات يمكن أن تؤدي إلى ما يُعرف بفقدان الربط البصري أو Visual Aphasia، حيث يفقد النموذج اتصاله بالمعلومات البصرية ويعتمد على الافتراضات اللغوية. وهنا تأتي COAST لتقديم حلاً مبتكرًا.

تتميز COAST بأنها إطار عمل لتقليص البيانات بدون تدريب، فهي تعيد تصور عملية الضغط كمسار دلالي متكيف. تستخدم هذه التقنية انتباهًا متقاطعًا أصليًا لتحديد نقاط مرجعية خاصة بالاستفسارات وتقدير تباعد السياق من خلال قياس انتشار الانتباه. كما أنها تقوم بالتكيف بين الأدلة الدلالية والسياق المكاني للحفاظ على توازن مناسب.

ومن المثير للاهتمام أن تقنية COAST قادرة على تقليل عدد الرموز البصرية بنسبة تصل إلى 77.8% مع تحقيق تسريع يصل إلى 2.15 مرة في زمن الاستجابة، بينما تحافظ على 98.64% من أداء النموذج الأصلي. بالإضافة إلى ذلك، أثبتت COAST قدرتها على العمل بكفاءة عبر عدة نماذج مختلفة وليس فقط نموذج واحد، مما يجعلها خيارًا قويًا مقارنة بأساليب تقليص البيانات الأخرى.