في عالم الذكاء الاصطناعي، لا تقتصر نماذج اللغة على مجرد اختيار إجابة في الطبقة النهائية، بل تخوض رحلة معقدة من اتخاذ القرارات. في دراسة شاملة ضمت 9000 مسار عبر نماذج متميزة مثل Qwen2.5-7B-Instruct وLlama-3.1-8B-Instruct وMistral-7B-Instruct-v0.3، تم استنتاج أن الأجوبة لا تُختار ببساطة، بل تتطور من خلال عمليات هيكلية دقيقة.

يتضح أن هناك ثلاثة معايير رئيسية تحدد مسار كل إجابة: الفارق الحالي للإجابة، التغير في هذا الفارق في الطبقة التالية، والمسافة إلى تبديل القرار. وتظهر النتائج أن الاستقرار والدقة لا يتوافقان بالضرورة، حيث كان العدد الأكبر من الأمثلة غير مستقر ولكن صحيح.

في الحالات المستقرة الصحيحة، يشير المتوسط الخاص بالاهتمام إلى الاتجاه الصحيح، بينما لا تفعل ذلك معايير MLP (Multi-Layer Perceptron). أظهرت التجارب أن حذف النصوص التي تدعم الإجابة يزيد من ضعف الفارق، بينما يساعد حذف النصوص المشتتة.

تقدم هذه الدراسة طريقة قابلة للتكرار لفهم أي الإجابات تعتبر محكمة، وأي منها لا تزال هشة، وأي المصادر تعتبر مؤثرة في هذا التغيير. إذًا، كيف تؤثر البيئات اللغوية على دقة وموثوقية النماذج؟ هذه الأسئلة لا تزال قيد البحث، لكن النتائج الأولية مثيرة للاهتمام وتفتح آفاقًا جديدة لفهم أعمق لهذه النماذج.