في عالم الذكاء الاصطناعي، تتعاظم الحاجة إلى نماذج قادرة على التفكير وحل المشكلات بفاعلية. في هذا السياق، قدم الباحثون مفهوم تحسين السياسة الموجهة بالاستراتيجية (SGPO) كاستجابة لقيود طرق تقليدية في تعلم النماذج اللغوية. غالبًا ما تركز التقنيات القديمة على تقليد سلوكيات معينة، مما يشجع على الحفظ بدلاً من تطوير مهارات حل المشكلات القابلة للتعميم.
تقوم فكرة SGPO بتجاوز تقليد المسارات المعنوية وبناء توصيفات استراتيجية قابلة لإعادة الاستخدام، مما يمكّن النماذج من مقاومة القيود المفروضة من خلال استراتيجيات جديدة. يقوم النظام الجديد بتوليد مسارات استجابة سواء كانت مستقلة أو موَّجهة استراتيجيًا، مما يتيح المقارنة المباشرة لسلوك النموذج.
تمت معالجة سؤالين رئيسيين في هذا البحث، الأول يتعلق بكيفية استخلاص المهارات، والثاني عن متى يجب فعل ذلك. من خلال استخدام أهداف KL المتقدمة، تقوم تقنية SGPO بنقل التحولات التوزيعية التي تنتج عن توجيه الاستراتيجية إلى سياسة غير موَّجهة، مع الحفاظ على استقرار النموذج.
تظهر التجارب التي أجريت على أربع معايير رياضية عبر عائلتين من النماذج أن SGPO يتفوق باستمرار على تقنيات مثل تعلم السياسة القائمة على البيانات (SFT) وتعلم التعزيز القائم على السياسة، محققًا تحسنًا ملحوظًا قدره 2.2 نقطة عن أقوى المعايير.
على ضوء تلك الإنجازات، يتضح أن سياسة التغذية المرتدة المبنية على KL تخدم كإشارة انتقائية أفضل من تقليد المسارات المباشر، مما يوفر دلالة على التكيف مع القدرات الأساسية لنماذج الذكاء الاصطناعي.
إعادة تعريف التعلّم: استراتيجية جديدة لتحسين أداء نماذج الذكاء الاصطناعي
خلافًا للطرق التقليدية في تقليد سلوكيات النماذج اللغوية، تقدم الدراسة الجديدة مفهوم تحسين السياسة الموجهة بالاستراتيجية (SGPO). يستهدف هذا الابتكار تعزيز مهارات التفكير لدى النماذج من خلال تقنيات جديدة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
