في عالم الذكاء الاصطناعي المتطور، تلعب نماذج اللغة الكبيرة (Large Language Models) دوراً أساسياً في كيفية معالجة المعلومات والتفاعل مع البيانات. لكن كيف يمكننا فهم ما يحدث داخل هذه النماذج؟ تكشف دراسة حديثة نشرت في arXiv أن الاستقصاء الخطي (Linear Probing) لنماذج اللغة الكبيرة قد لا يكشف عن الأنماط المعقدة للفكر، بل عن شكل المهام (Task Format) التي تتعامل معها.

أجرى الباحثون اختباراً على نموذج Qwen3-14B مستخدمين ثلاثة اختبارات رئيسية: LogiQA 2.0 (استدلالي)، ARC-Challenge (استقرائي)، وαNLI (استنتاجي). عند الوصول إلى الطبقة 32 من أصل 40، حقق الاستقصاء دقة تصل إلى 100% مع تباين جيد (أبعاد داخلية: 20.6، 28.5، 33.6؛ تلوث الدوائر المحدبة أقل من 1.5%). لكن ما يظهر للعيان هو أن هذه النتائج كانت مدفوعة تماماً بموارد شكلية، مثل الهوية المصدرية، عدد الخيارات، وطول الردود.

عندما تم إزالة هذه العوامل، انخفضت الدقة إلى مستوى الحظ. كذلك، أظهرت تحليلات تشابه الأنماط أن هناك اتفاقاً كبيراً يصل إلى 42.5% في طريقة التفكير عبر المهام المختلفة، مما يشير إلى أن النماذج تشترك في الكثير من النقاط المشتركة، بعيداً عن ما كنا نتوقعه.

تظهر هذه النتائج ضرورة إعادة التفكير في كيفية تفسير هذه الأنظمة وتسلط الضوء على أهمية معالجة العوامل الشكلية لحل العوائق لفهم التفاعلات الميكانيكية بشكل أفضل. هل يمكن أن يتغير نهجنا في تصميم الأنظمة الذكية بناءً على هذه النتائج؟