في عالم التكنولوجيا المتسارعة، تشكل نماذج الذكاء الاصطناعي التي تربط بين الرؤية والصوت والحركة (Vision-Language-Action models) نقطة تحول. على الرغم من القوة التي توفرها نماذج اللغة الرؤية (Vision-Language Models) من خلال التدريب الشامل على الويب، إلا أنها قد تعاني من ضعف الأداء عند تنفيذ المهام الروبوتية البسيطة.

هنا يأتي دور تقنية **توجيه تنشيط المفاهيم المتباينة (Contrastive Conceptor Activation Steering - COAST)**، والتي تهدف إلى معالجة هذا التحدي. تعتمد COAST على فكرة "المفهوم"، وهو عامل خطي يقوم بإسقاط البيانات بلطف في العناصر الأساسية لتوزيع مستهدف. من خلال استخدام هذه المفاهيم، تقوم COAST بتحديد الفضاءات الفرعية الحيوية التي تؤثر على نجاح المهام الروبوتية، مستندة إلى أمثلة من التجارب الناجحة والفاشلة.

عند مرحلة الاستدلال، تقوم COAST بتوجيه تمثيلات النماذج نحو هذه الفضاءات المستهدفة لتعزيز نتائج المهام. وقد أظهرت الأبحاث أن استخدام COAST أدى إلى تحسين معدل نجاح المحاكاة والروبوتات الحقيقية بنسبة تتجاوز 20% و40% على التوالي.

تكشف هندسة الفضاءات التنشيطية أن أنماط الفشل تشترك في بنية كبيرة عبر المهام، بينما تظل التمثيلات الناجحة مخصصة إلى حد كبير لكل مهمة. فعندما تشترك المهام في أنماط فشل مماثلة، تمكن هذه البنية نفس المفاهيم من تحسين الأداء في مهام جديدة دون الحاجة إلى إعادة التدريب.

تشير نتائجنا إلى أن نماذج الذكاء الاصطناعي الحالية تحتفظ بمعرفة كبيرة تتعلق بالمهام في تمثيلها الكامن، وأن مختنق فك الرموز للخبير في الحركة يمكن أن يتم تخفيفه من خلال توجيه تدفق البيانات نحو الفضاءات ذات الصلة بالمهام. توفر COAST مساراً خفيف الوزن وخالياً من التدريب لإطلاق هذه القدرات الكامنة من خلال توجيه النموذج نحو توزيعات خالية من النجاح الخاصة به.