وفي خطوة واثقة نحو تعزيز فعالية نماذج اللغات الضخمة (Large Language Models)، نكشف النقاب عن PopuLoRA، وهو إطار عمل متطور يعتمد على التعلم الذاتي المتناظر في مجال التعلم المعزز مع مكافآت يمكن التحقق منها بعد تدريب النماذج. يعتمد PopuLoRA على فكرة بسيطة ولكن قوية: يتم استخدام معلمين وطلاب مخصصين كموصلات LoRA على قاعدة مجمدة مشتركة على نحو فريد.
يقدم المعلمون مهام تتحدى الطلاب، الذين يُطلب منهم حل هذه المهام تحت إشراف محقق برمجي. يتم تقييم النتائج بين مجموعات فرعية مختلفة، مما يساعد على التغلب على قيود عملية المعايرة الذاتية التي تواجه التعلم الذاتي التقليدي. يجمع PopuLoRA أساليب تطور فرعية لأوزان LoRA (mutations and crossovers) تُنتج أعضاء من نفس الرتبة في ثوانٍ، لتشكل خطوة تعويضية ضمن حلقة التدريب القائمة على المجموعات.
لقد تم تطبيق PopuLoRA على Reasoner Absolute Zero وتم مقارنته بقاعدة بيانات منفصلة من حيث الأداء. في حين أن النموذج المستقل يُفضل حل المشكلات السهلة، تدخل المجموعة في سباق تطوري: يتم إنتاج مشكلات أكثر تعقيدًا من قبل المعلمين، ويتذبذب معدل حل الطلاب، مما يعزز تغطية مجال المشكلات طوال فترة التدريب. على الرغم من أن المكافآت خلال فترة التدريب كانت أقل، إلا أن المتوسط العام للمجموعة تفوق على قاعدة البيانات في ثلاثة اختبارات برمجية (HumanEval+, MBPP+, LiveCodeBench) وسبعة اختبارات رياضية (AIME 24/25، AMC 23، MATH-500، Minerva، GSM8K، OlympiadBench). حتى أضعف عضو في المجموعة تمكن من تجاوز قاعدة البيانات بشكل عام.
هذا الإنجاز يعتبر بالفعل بادرة على مستقبل واعد في تطوير الذكاء الاصطناعي، حيث يسهم في تعزيز قدرات التعلم الذاتي وتحسين أداء نماذج الذكاء الاصطناعي بشكل ملحوظ. ما رأيكم في هذا التطور؟ شاركونا في التعليقات.
PopuLoRA: ثورة جديدة في التعلم الذاتي للذكاء الاصطناعي!
تقدم PopuLoRA إطار عمل مبتكر يعتمد على التعلم الذاتي المتناظر في أبحاث الذكاء الاصطناعي، مما يتيح تحسين أداء نماذج اللغات الضخمة (LLMs). هذا التطور يعد خطوة نحو تطوير حلول عقلانية ومتطورة أكثر باستخدام التعلم المعزز.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
