تعتبر موديلات الرؤية واللغة (Vision-Language Models) جزءًا أساسيًا من نظم القيادة الذاتية، لكنها تواجه تحديات كبيرة نتيجة العبء الحسابي الهائل الناتج عن معلومات الكاميرات المتعددة والإطارات المتنوعة. من خلال ظهور تقنية ST-Prune، تمكنا من تجاوز هذا التحدي من خلال تقديم إطار عمل جديد يهدف إلى تقليم الرموز بشكل فعال ودون حاجة إلى تدريب مسبق.

تتكون ST-Prune من وحدتين متكاملتين: تقليم زمني واعي للحركة (Motion-aware Temporal Pruning - MTP) وتقليم مكاني بإشراف زوايا الرؤية (Ring-view Spatial Pruning - RSP). يقوم MTP بالتعامل مع الازدواجية الزمنية من خلال معالجة المتغيرات الحركية والحداثة الزمنية كقيود مرنة، مما يضمن التركيز على المسارات الديناميكية والمحتوى من الإطار الحالي بدلاً من الخلفيات الثابتة القديمة.

أما RSP، فيعالج الازدواجية المكانية من خلال استغلال هندسة الكاميرا الزاوية الحلقة، مما يمنع التشابه الثنائي بين المشاهد ويعزز من جودة البيانات المخزنة. هذا التكامل بين الوحدتين يجعلهما يحافظان على المعلومات الأساسية للمشهد، حتى مع تقليل الرموز بشكل صارم.

مع تحقق نتائج متفوقة عبر أربعة معايير ترجع مجالات الإدراك والتنبؤ والتخطيط، أثبتت ST-Prune أنها تقدم نموذجًا جديدًا لتقليص الرموز بدون تدريب، مما ينافس تقنيات التقليم الأخرى في السرعة والأداء، حتى في حالات تقليل 90% من الرموز. من الواضح أن ST-Prune ليست فقط نقلة في التقنية ولكن ثورة في كيفية التعامل مع البيانات في القيادة الذاتية.