في عالم الذكاء الاصطناعي، يعتبر التعلم المعزز (Reinforcement Learning) من أبرز الأساليب المبتكرة لتحسين أداء نماذج اللغات الكبيرة (Large Language Models) في التفكير المنطقي، حيث يتم استخدام محاكاة للأداء لتحديث السياسات بناءً على إشارات المكافأة. لكن، كيف يمكن مواجهة التحدي المتمثل في ندرة البيانات والمكافآت؟
تقدم الأبحاث الأخيرة Concept MemReward، وهي إطار عمل يعتمد على الرسوم البيانية للذاكرة التجريبية، التي تعزز من عملية تحسين السياسات عبر التكامل الفعال لتوزيع المكافآت. يعتمد MemReward على الاحتفاظ بالسجلات (rollouts) من أول سياسة لنموذج اللغة الكبيرة على شكل عقد في رسم هيكلي متنوع، مما يمكن من تدفق المكافآت من الحالات المعلّمة إلى تلك غير المعلّمة.
باستخدام شبكة عصبية غرافية (Graph Neural Network) لتحليل البيانات، يقوم MemReward بربط السجلات غير المعلّمة بالشبكة وفقاً للتشابه، مما يسمح للنموذج بتنبؤ المكافآت لتلك السجلات غير المعلّمة، مما يمثل استراتيجية فريدة تجمع بين المكافآت المستندة إلى البيانات الحقيقية وتنبؤات الشبكة.
أثبتت التجارب على نماذج مثل Qwen2.5-1.5B و3B في مجالات الرياضيات، الإجابة على الأسئلة، وتوليد الأكواد أن MemReward يمكنه تحقيق 96.6% من الأداء الأمثل باستخدام مكافآت دقيقة على 20% فقط من السجلات.
إن هذه النتائج لا تعكس مجرد خطوة للأمام، بل تمثل قفزة نوعية في كيفية تدريب وتحسين نماذج الذكاء الاصطناعي. ما رأيكم في هذا التطور المثير؟ هل تعتقدون أن هذا الحل يمكن أن يحدث فرقًا في المستقبل؟ شاركونا في التعليقات!
مدى تأثير نموذج MemReward: ثورة في تحسين أداء نماذج اللغات الكبيرة باستخدام الذكاء الاصطناعي
تقدم تقنية MemReward ثورة في مجال التعلم المعزز لنماذج اللغات الكبيرة، حيث تتيح تحسين الأداء بفضل استخدام ذاكرة تجريبية قائمة على الرسوم البيانية دون الاعتماد الكبير على البيانات المعلّمة. استعدوا لاكتشاف كيفية تحقيق الأداء القريب من مستوى الخبراء مع أقل من 20% من بيانات التحقق.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
