في عالم الذكاء الاصطناعي، تُعد [نماذج اللغات](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)) [متعددة الوسائط](/tag/متعددة-الوسائط) (Multi-Modal Large Language [Models](/tag/models)) واحدة من أبرز التطورات، حيث تُظهر قدرات مذهلة في [توليد الصور](/tag/[توليد](/tag/توليد)-[الصور](/tag/الصور)). ومع ذلك، لا يزال [تحسين](/tag/تحسين) هذه [النماذج](/tag/النماذج) من خلال [التعلم التعزيزي](/tag/[التعلم](/tag/التعلم)-التعزيزي) ([Reinforcement Learning](/tag/reinforcement-learning)) يمثل تحديًا كبيرًا. يجدر بالذكر أن [توليد](/tag/توليد) [صورة](/tag/صورة) واحدة يمكن أن يتم [عبر](/tag/عبر) عدة تسلسلات مختلفة، مما يجعل [حساب](/tag/حساب) نسبة الأهمية لمختلف العناصر عملية معقدة.
إحدى النقاط الحرجة التي تغفلها الأساليب الحالية هي عملية [التوليد](/tag/التوليد) الهيكلي، حيث تحدد العناصر الأولى [تخطيط](/tag/تخطيط) [الصورة](/tag/الصورة) العام بينما تركز العناصر اللاحقة على التفاصيل الدقيقة. من خلال [منح](/tag/منح) [مكافآت](/tag/مكافآت) ثابتة لجميع العناصر، تفشل هذه الأساليب في عكس المساهمة الفعلية لكل عنصر في [الصورة](/tag/الصورة) النهائية.
للتغلب على هذه التحديات، تم تقديم طريقة جديدة تعرف باسم هيكلية [GRPO](/tag/grpo) التطبيقية (Hierarchical Token [GRPO](/tag/grpo) - HT-[GRPO](/tag/grpo)). تعتمد هذه الطريقة على دمج الهيكلية مباشرة في عملية [تحسين](/tag/تحسين) السياسات، ويتميز هذا النهج بمخطط [تدريب](/tag/تدريب) يُعرف باسم "اسكتش ثم طلاء" (Sketch-Then-Paint)، والذي يُنظم [التحديثات](/tag/التحديثات) إلى ثلاث مراحل متميزة: تشكيل [الصورة](/tag/الصورة) العامة، الهيكلة، والتنقيح.
علاوة على ذلك، تُستخدم تقديرات مشروطة للطلبات لحساب نسب الأهمية بدءًا من حالة مقنعة بالكامل. كما تم تقديم آلية [منح](/tag/منح) [الائتمان](/tag/الائتمان) الهيكلي (Hierarchical Credit Assignment) التي تعطي الأولوية للعناصر الهيكلية المهمة لضمان انتقال [المكافآت](/tag/المكافآت) بدقة.
تظهر [التجارب](/tag/التجارب) باستخدام نموذجين شعبيين هما MMaDA وLumina-DiMOO أن HT-[GRPO](/tag/grpo) [تحقق](/tag/تحقق) [تحسينات](/tag/تحسينات) ملحوظة في قياسات GenEval وDPG. بالإضافة إلى ذلك، تؤكد [التقييمات](/tag/التقييمات) [عبر](/tag/عبر) ستة [مقاييس](/tag/مقاييس) إضافية [تحسينات](/tag/تحسينات) ملحوظة في جودة الصور، الجماليات، وتفضيلات المستخدمين. ما رأيكم في هذه التطورات المثيرة في عالم [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي)؟ شاركونا أفكاركم وتعليقاتكم!
ثورة جديدة في الذكاء الاصطناعي: التعلم التعزيزي الهيكلي لتحسين نماذج اللغات متعددة الوسائط
يسلط البحث الجديد الضوء على طريقة مبتكرة لجعل نماذج اللغات متعددة الوسائط أكثر كفاءة من خلال التعلم التعزيزي الهيكلي. استراتيجيات جديدة تساهم في تحسين جودة وطبيعة الصور المولدة بشكل غير مسبوق.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
