في عالم الذكاء الاصطناعي، يعد نموذج استجابة الأسئلة بناءً على الرسوم البيانية الخاصة بالقيادة الذاتية (GVQA) نظاماً معقداً ينظم عملية التفكير في ثلاث مراحل: الإدراك (Perception)، التنبؤ (Prediction)، والتخطيط (Planning). حيث يجب أن تظل القرارات التخطيطية متسقة مع الإدراك الذي يجمعه النموذج. في هذا السياق، تقدم دراسة جديدة مقارنة بين آليتين مختلفتين في تمرير السياق عبر هذه المراحل باستخدام نموذجين خاصين.

تخصص الدراسة جانباً لتحليل آلية التمرير الواضحة التي تعتمد على ثلاث استراتيجيات تعتمد على النماذج، ويستخدم نموذج Mini-InternVL2-4B-DA-DriveLM، والتي أظهرت تخفيضاً في تناقض الناتج اللغوي الطبيعي (NLI) بمعدل يصل إلى 42.6%، مما يوفر قاعدة قوية بلا تدريب إضافي.

أما عن الآلية الثانية، فتسمى بآلات سياقية مسيطر عليها، والتي تأخذ متجه الحالة المخفية من مرحلة واحدة وتدمج Projection مسيطر عليها في إدخالات المرحلة التالية. تم تدريب هذه الآلات مع محولات QLoRA المتخصصة في المراحل في نموذج شامل (InternVL3-8B-Instruct)، مما أظهر تقليصاً معنوياً بنسبة 34% في تناقض مرحلة التخطيط. بالإضافة إلى ذلك، لوحظ تحسن بنسبة 50% في العبارات المتبادلة بين المراحل، مع تقييم باستخدام مصنفات NLI متعددة اللغات لحساب المخرجات المختلطة.

رغم أن جودة لغة التخطيط تحسنت (-CIDEr +30.3%)، إلا أن التركيب اللغوي والاتساق الهيكلي تدهور بسبب غياب التدريب المسبق الخاص بمجال القيادة. تقدم الدراسة مقارنة بين الطريقتين كدراسات حالة متكاملة، حيث توفر آلية التمرير الواضح قاعدة دعم قوية، بينما تعزز الآلية المسيطر عليها اكتساب المعاني. في النهاية، يجسد هذا البحث إمكانية التحسين واسعة النطاق في الذكاء الاصطناعي للقيادة الذاتية.