لقد شهدنا مؤخرًا نتائج مذهلة من نماذج الذكاء الاصطناعي الكبيرة في معالجة التفكير (Chain of Thought) والتي تُعتبر خطوة مهمة نحو فهم آليات النموذج. ومع ذلك، فإن دلالات الرموز الوسيطة التي تُستخدم في تدريب هذه النماذج لا تزال غامضة بالنسبة للكثيرين.

في دراسة حديثة، تم إجراء اختبار منهجي لفهم تأثير هذه الرموز على الأداء العام للنماذج. تم تدريب نماذج التحويل (Transformer Models) من البداية بناءً على آثار استدلال قابلة للتحقق، مما سمح للباحثين بتقدير فعالية هذه الآثار. النتائج كانت مفاجئة!

فارقت النماذج التي تم تدريبها على آثار غير صحيحة معايير الأداء في بعض المهام، حيث أظهرت قدرة مشابهة لتلك التي تم تدريبها على آثار صحيحة، بل وتفوقت في بعض الأحيان من حيث العمومية في المهام غير المعروفة.

بالإضافة إلى ذلك، تم استكشاف تأثير إعادة التدريب المعتمد على تعزيز التعلم (RL) من خلال نماذج GRPO، حيث أظهرت المرحلة النهائية زيادة في دقة الحلول دون تحسن ملحوظ في صحة الآثار. وهذا يدعو للتفكير، هل نتوقع فعلاً من الرموز الوسيطة أن تعكس سلوك التفكير البشري؟

إن هذه النتائج تدفعنا لإعادة التفكير في كيف يمكن استخدام النماذج اللغوية الكبيرة، ويجب على المرء أن يكون حذرًا من فرض تفسيرات بشرية على سلوكياتها. هل تعتقدون أن هذه النتائج ستحدث ثورة في تطوير الذكاء الاصطناعي؟ شاركونا آراءكم!