في خطوة غير متوقعة، أثبتت الأبحاث الأخيرة أن نماذج المحولات (Transformers) المدربة باستخدام التعلم المعزز (Reinforcement Learning) تطور القدرة على توليد خطوات تفكير وسيطة، وذلك عند تناول بيانات دقيقة ومناسبة. يطرح هذا الاكتشاف تساؤلات جديدة حول كيفية تصميم النماذج الذكية لتكون أكثر فعالية.
تتمثل التحديات الرئيسية في فهم كيفية توجيه المكافآت النادرة (sparse rewards) للمسارات السياسية (policy gradient) لاكتشاف هذا النوع من التفكير المنظم. للمساعدة في حل ذلك، تم تحليل ديناميات سياسة المحولات ذات الطبقة الواحدة (single-layer Transformers) في مهمة تخطيطات الرسوم البيانية، والتي لا يمكن حلها بدون خطوات التفكير الوسيطة.
تشير النتائج إلى أنه رغم التوجه الشامل نحو صحة الإجابات النهائية فقط، إلا أن ذلك يدفع المحول للوصول إلى خوارزمية منظمة وقابلة للتفسير تتنقل عبر الرسم البياني خطوة بخطوة.
هذا التحليل أسفر عن تحديد الخصائص التوزيعية المطلوبة لهذه الظاهرة، مع الإشارة إلى الدور الحاسم للأمثلة البسيطة (simple examples): الحالات التي تتطلب خطوات تفكير أقل. عندما يتم التركيز على هذه الأمثلة البسيطة أثناء التدريب، يكتسب المحول استراتيجية تنقل عامة يمكن أن تمتد إلى سلاسل أطول. ومع ذلك، إذا اختفت هذه الأمثلة، يصبح التعلم بواسطة سياسة المكافأة أمراً غير قابل للتطبيق.
تجاربنا على بيانات صناعية ونماذج لغوية حقيقية أثبتت أن هذه النتائج النظرية قابلة للتطبيق في البيئات العملية. ما هذه الاكتشافات بالنسبة لمستقبل الذكاء الاصطناعي؟ يبدو أن الطريق نحو نماذج ذكاء اصطناعي أكثر فهماً وتفسيراً قد بدأ.
هل يمكن للتعلم المعزز أن يجعل الروبوتات تفكر؟ اكتشافات مثيرة حول نماذج المحولات!
أظهرت دراسة جديدة أن نماذج المحولات المدربة عبر التعلم المعزز يمكنها تطوير خطوات تفكير وسيطة شرط أن تتوفر البيانات الصحيحة. نتائج مثيرة قد تحدث ثورة في كيفية تصميم الذكاء الاصطناعي!
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
