في عالم الذكاء الاصطناعي، تبرز المحولات الدائرية (Looped Transformers) كأداة فعّالة للقيام بمهام خوارزمية تشير إلى ضرورة تكييف استراتيجيات التعلم لتناسب المتغيرات المختلفة. هذه النماذج تستمر في تطبيق كتلة المحول (Transformer Block) المشتركة عدة مرات، مما يمنحها مرونة في التعامل مع المهام ذات الطول المتغير.
لكن، كما أظهر البحث الجديد، يواجه أداء هذه النماذج تحديًا كبيرًا يتجلى في الارتفاع المفاجئ للتباين عند الخروج من توزيع البيانات (Out-of-Distribution) حتى في الحالات التي تظهر فيها نماذج داخلية جيدة الأداء.
السبب الأساسي وراء هذا التباين هو العلاقة الوهمية بين طول السلسلة وعدد الحلقات المستخدمة في المهام الخوارزمية البسيطة. لتحسين هذا الأداء، تم اقتراح إدخال العشوائية في عدد الحلقات المستخدمة أثناء التدريب، مما يؤدي إلى تقليل التباين وزيادة الاستقرار في التوقعات أثناء مرحلة الاستدلال.
على ضوء ذلك، تم تحليل أسلوب إيقاف التعلم العشوائي (RL-Halting) باعتباره جدولة عشوائية مكتسبة. وقد أظهرت النتائج أن هذا النهج يحسن عمومًا التوازن بين الدقة والثبات.
عند تطبيق هذا على أمثلة مثل الجمع الثنائي وDyck-1 والمجموعات الفريدة، كانت النتائج مثيرة للإعجاب، حيث طوّرت أساليب التوقف العشوائي غالبًا من هذا التوازن. ونعلم الآن أن مسألة "متى نتوقف؟" يجب اعتبارها خيار تصميم وقت التدريب، وليس مجرد قاعدة لتخصيص الحسابات في وقت الاستدلال.
أصبحت هذه الأفكار خطوة مهمة لدفع حدود ما يمكن أن تحققه نماذج المحولات الدائرية، مبرزة الأهمية المتزايدة للطرق المبتكرة في التعلم الآلي.
تحقيق الاستقرار في التوقعات باستخدام المحولات الدائرية من خلال إيقاف التعلم العشوائي
تسعى الأبحاث الجديدة إلى تحسين أداء المحولات الدائرية (Looped Transformers) عن طريق تقديم تقنيات جديدة للتوقف العشوائي. هذا التطور يعد خطوة مهمة نحو معالجة التحديات التي تواجهها هذه النماذج في المهام الخوارزمية المتغيرة الطول.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
