في عالم الذكاء الاصطناعي، غالبًا ما يكون التدريب على نماذج اللغات الكبيرة (LLMs) بحاجة إلى عمليات تعلم معززة (Reinforcement Learning) تعتمد على مدققين محددين. لكن ماذا عن المهام التي تتطلب استدلالًا مكثفًا، والتي تفتقر إلى هذه المدققين؟ هنا يأتي دور تقنية رارو (Relativistic Adversarial Reasoning Optimization) التي تقدم حلاً مبتكرًا.
رارو تعتمد على تعليم هذه النماذج من خلال الاستفادة فقط من الدروس المستفادة من الخبراء. تعمل هذه التقنية على إنشاء لعبة تنافسية بين سياسة التعلم وناقد نسبي؛ حيث تتعلم السياسة تقليد إجابات الخبراء، بينما يسعى الناقد إلى تمييز الخبراء من بين الأزواج المختلفة من إجابات الخبراء والسياسة.
يتم تدريب السياسة والناقد معًا وعلى نحو مستمر باستخدام تقنيات التعلم المعزز، مما يساعد على تحقيق الاستقرار خلال عملية التعلم. ووفقًا للدراسات التجريبية، أثبتت رارو أنها تتفوق بشكل كبير على المعايير التقليدية التي لا تعتمد على المدققين، حيث سجلت زيادة في الدقة بنسبة 13.7% في مهام Countdown، و8.2% في DeepMath، و19.1% في كتابة الشعر مقارنةً بالقصائد الخبراء.
تمثل النتائج التي تم الحصول عليها من تقنية رارو قفزة نوعية في مجال الذكاء الاصطناعي والقدرة على التعلم الاستدلالي، حتى في ظل غياب المدققين الخاصين بالمهام. إذا كنت مهتمًا بعالم الذكاء الاصطناعي، فإن تقنية رارو تمثل خطوة هامة نحو تحقيق أداء أقوى في مواجهة التحديات المستقبلية.
ابتكار رارو: كيف يمكن لعمليات التعلم من الخبراء تعزيز قدرات الذكاء الاصطناعي في الاستدلال؟
تعرّف على تقنية رارو (RARO) التي تعزز قدرات Modelle اللغات الكبيرة عن طريق التعلم من خلال نماذج الخبراء، دون الحاجة إلى متطلبات تقييم محددة. هذه الطريقة الجديدة تعد بتطوير الأداء الاستدلالي بشكل ملحوظ.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
