تظل مشكلة التفكير المكاني واحدة من التحديات المستمرة في مجال نماذج الرؤية واللغة (Vision Language Models - VLMs). وعادة ما تتطلب تحسينات الأداء عمليات ضبط دقيقة مع إضافة عدد كبير من المعلمات. ومع ذلك، يجب أن نأخذ في الاعتبار ما يكشفه تحليلنا الأولي: إعادة ضبط التنشيطات في بعض طبقات المحول (Transformer) المختارة، دون تعديل الأوزان المدربة مسبقًا، يمكن أن تؤثر بشكل كبير على الأداء اللاحق.

بناءً على هذه الملاحظة، تم اقتراح ScAle، وهي طريقة تكيف خفيفة للغاية تتعلم مجموعة صغيرة من المعاملات العددية (Scalar Coefficients) لضبط الانتباه في آخر رمز وتفعيل وحدات متعددة (MLP) في هيكل ثابت بالكامل. تمت مراجعة أسلوبنا على معيار تفكير مكاني صناعي يسمى SpatialEval وعلى بيانات VQA الواقعية مثل COCOQA وVGQA عبر عائلات متعددة من النماذج.

تظهر نتائجنا أن ScAle تحقق حتى 134.1% من زيادة الدقة النسبية باستخدام فقط 1K معلمة قابلة للتدريب، دون الحاجة إلى ملايين المعلمات القابلة للتدريب كما هو مستخدم في طرق PEFT القياسية مثل LoRA. ورغم حجمها الصغير، تمكنت نهجنا من استعادة جزء كبير من أداء PEFT القياسي مع الحفاظ على دقة قوية في VQA غير المكاني.

توضح هذه النتائج أن إعادة وزن التنشيط المحدودة توفر بديلاً بسيطاً، وغير معتمد على الهيكل، وذو كفاءة عالية في عدد المعلمات لتكييف نماذج VLMs المدربة مسبقًا. إن ScAle يمثل تحولًا حقيقيًا في كيفية تعاملنا مع التفكير المكاني في بيانات الرؤية واللغة، ما يفتح آفاقًا جديدة للابتكار في هذا المجال.