في دراسة حديثة، تم تناول موضوع مثير يتعلق بكيفية استخدام نماذج الذكاء الاصطناعي لتقنية سلسلة التفكير (Chain-of-Thought) في عملية الاستدلال. حيث أظهرت النتائج أن بعض النماذج، مثل DeepSeek-R1 671B و GPT-OSS 120B، تتسم بالثقة العالية في إجاباتها النهائية، لكنها تستمر في توليد رموز نصية (tokens) دون أن تكشف عن معتقداتها الداخلية.
تتمثل جوهر البحث في التحليل المقارن بين استكشاف التنشيط (activation probing) والإجابة المبكرة القسرية (early forced answering) ونظام مراقبة سلسلة التفكير (CoT monitor)، حيث تم تحديد اختلافات محددة بناءً على صعوبة المهام. وأظهر البحث أن الإجابة النهائية يمكن فك رموزها من التنشيطات في وقت أبكر بكثير مقارنةً بما يستطيع المراقب قوله، خصوصًا في الأسئلة السهلة المستندة إلى الاسترجاع (recall-based).
في المقابل، اتضح أن الاستدلال الحقيقي يظهر في أسئلة أكثر صعوبة، مثل أسئلة GPQA-Diamond. ورغم ذلك، يُظهر البحث نقاط التحول (inflection points) مثل عودة التفكير (backtracking) ولحظات الإدراك ('aha moments') بأنها تحدث تقريبًا في الإجابات التي تُظهر تحولات كبيرة في المعتقدات، مما يشير إلى أن هذه السلوكيات تعكس شكوكًا حقيقية أكثر من كونها نتيجة لـ "مسرح التفكير" المتعلم.
أخيرًا، أثبت استخدام أساليب الاستكشاف الموجهة (probe-guided early exit) قدرتها على تقليل عدد الرموز بنسبة تصل إلى 80% في مهام MMLU و30% في GPQA-Diamond مع الحفاظ على دقة مشابهة، مما يضع استكشاف التنشيط كأداة فعالة للكشف عن الاستدلال الأداء وتمكين الحسابات التكيفية. فهل نحن على أعتاب ثورة جديدة في عالم الذكاء الاصطناعي؟
سرّ الذكاء الاصطناعي: كيف يكشف مسرح التفكير عن اعتقادات النماذج؟
يكشف بحث جديد عن كيفية اعتماد نماذج الذكاء الاصطناعي على سلسلة التفكير (Chain-of-Thought) لإنتاج إجابات دقيقة، رغم عدم ظهور معتقداتها الداخلية. مقال مثير يستعرض الاختلافات المفاجئة في الأداء بين الطرازات المختلفة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
