وفي خطوة واثقة [نحو](/tag/نحو) تعزيز فعالية [نماذج [اللغات](/tag/اللغات) الضخمة](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)-الضخمة) (Large Language [Models](/tag/models))، نكشف النقاب عن PopuLoRA، وهو إطار [عمل](/tag/عمل) متطور يعتمد على [التعلم الذاتي](/tag/[التعلم](/tag/التعلم)-الذاتي) المتناظر في مجال [التعلم المعزز](/tag/[التعلم](/tag/التعلم)-المعزز) مع [مكافآت](/tag/مكافآت) يمكن [التحقق](/tag/التحقق) منها بعد [تدريب النماذج](/tag/[تدريب](/tag/تدريب)-[النماذج](/tag/النماذج)). يعتمد [PopuLoRA](/tag/populora) على فكرة بسيطة ولكن قوية: يتم استخدام معلمين وطلاب مخصصين كموصلات [LoRA](/tag/lora) على قاعدة مجمدة مشتركة على [نحو](/tag/نحو) فريد.
يقدم المعلمون مهام تتحدى الطلاب، الذين يُطلب منهم حل هذه المهام تحت إشراف محقق برمجي. يتم [تقييم](/tag/تقييم) النتائج بين مجموعات فرعية مختلفة، مما يساعد على التغلب على [قيود](/tag/قيود) عملية [المعايرة](/tag/المعايرة) الذاتية التي تواجه [التعلم الذاتي](/tag/[التعلم](/tag/التعلم)-الذاتي) التقليدي. يجمع [PopuLoRA](/tag/populora) [أساليب](/tag/أساليب) [تطور](/tag/تطور) فرعية لأوزان [LoRA](/tag/lora) (mutations and crossovers) تُنتج أعضاء من نفس الرتبة في ثوانٍ، لتشكل خطوة تعويضية ضمن حلقة [التدريب](/tag/التدريب) القائمة على [المجموعات](/tag/المجموعات).
لقد تم تطبيق [PopuLoRA](/tag/populora) على Reasoner Absolute [Zero](/tag/zero) وتم مقارنته بقاعدة [بيانات](/tag/بيانات) منفصلة من حيث [الأداء](/tag/الأداء). في حين أن النموذج المستقل يُفضل [حل المشكلات](/tag/حل-المشكلات) السهلة، تدخل المجموعة في سباق تطوري: يتم إنتاج مشكلات أكثر تعقيدًا من قبل المعلمين، ويتذبذب معدل حل الطلاب، مما يعزز تغطية مجال المشكلات طوال فترة [التدريب](/tag/التدريب). على الرغم من أن [المكافآت](/tag/المكافآت) خلال فترة [التدريب](/tag/التدريب) كانت أقل، إلا أن المتوسط العام للمجموعة تفوق على قاعدة [البيانات](/tag/البيانات) في ثلاثة [اختبارات](/tag/اختبارات) برمجية (HumanEval+, MBPP+, LiveCodeBench) وسبعة [اختبارات](/tag/اختبارات) [رياضية](/tag/رياضية) (AIME 24/25، AMC 23، MATH-500، Minerva، GSM8K، OlympiadBench). حتى أضعف عضو في المجموعة [تمكن](/tag/تمكن) من تجاوز قاعدة [البيانات](/tag/البيانات) بشكل عام.
هذا الإنجاز يعتبر بالفعل بادرة على [مستقبل](/tag/مستقبل) واعد في [تطوير](/tag/تطوير) الذكاء الاصطناعي، حيث يسهم في تعزيز قدرات [التعلم الذاتي](/tag/[التعلم](/tag/التعلم)-الذاتي) وتحسين [أداء](/tag/أداء) [نماذج الذكاء الاصطناعي](/tag/[نماذج](/tag/نماذج)-الذكاء-الاصطناعي) بشكل ملحوظ. ما رأيكم في هذا التطور؟ شاركونا في [التعليقات](/tag/التعليقات).
PopuLoRA: ثورة جديدة في التعلم الذاتي للذكاء الاصطناعي!
تقدم PopuLoRA إطار عمل مبتكر يعتمد على التعلم الذاتي المتناظر في أبحاث الذكاء الاصطناعي، مما يتيح تحسين أداء نماذج اللغات الضخمة (LLMs). هذا التطور يعد خطوة نحو تطوير حلول عقلانية ومتطورة أكثر باستخدام التعلم المعزز.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
