في عالم الذكاء الاصطناعي، أصبحت الحاجة إلى نماذج تجمع بين التفكير البصري والنصي أمرًا ملحًا. حيث اتجه العديد من الباحثين إلى استخدام أساليب التعزيز القائم على التعلم (Reinforcement Learning) لتحسين هذه النماذج. ولكن كانت المشكلة الرئيسية تتمثل في تقنيات النمذجة المتسلسلة (Autoregressive Models) التي تتطلب استعادة الصورة بالكامل أثناء عمليات التفكير البصري.
في هذه الدراسة، تقدم مجموعة من الباحثين حلاً مبتكرًا من خلال استخدام نماذج انتشار منفصلة (Discrete Diffusion Models)، حيث أثبتوا فعاليتها كبديل فعّال لتلك النماذج المتسلسلة. تعتمد هذه النماذج على القدرة على إجراء تعديل بصري محلي بدلاً من إعادة توليد الصورة بشكل كامل، مما يسهم في تقليل عمليات الحساب أثناء تنفيذ عمليات التعزيز (GRPO) بنسبة 26.9% مقارنة بالنماذج المتسلسلة.
على الرغم من هذه الكفاءة، تم تحديد مشكلة التداخل بين الإشارات الناتجة عن النصوص والصور أثناء تحديثات التعلم المعزز. لذلك، اقترح الفريق الاستراتيجيات الجديدة المسماة توزيع المكافآت المنفصلة، والتي تقوم بتخصيص المكافآت بشكل مستقل لكل من النصوص والصور. وقد أظهرت النتائج أن هذه الاستراتيجية تحققت تقدمًا ملحوظًا، حيث حققت تحسينًا بنسبة 11.2% مقارنة بتوزيع المكافآت المشتركة، و38.04% مقارنة بالنموذج الأساسي.
إن هذه النتائج تعكس إمكانيات النماذج المنفصلة في تعزيز الأداء وتقليل التعقيدات في التفكير البصري والنصي، مما يفتح آفاقًا جديدة للبحث والتطوير في مجال الذكاء الاصطناعي.
إعادة تعزيز فعالة لتفكير الصور والنصوص من خلال نموذج الانتشار المنفصل!
تقدم هذه الدراسة حلولًا مبتكرة لتحسين التفكير البصري والنصي في النماذج المختلطة من خلال استخدام نماذج الانتشار المنفصل، مما يحقق كفاءة أكبر في معالجة البيانات. الطريقة الجديدة تساهم في تقليل الحسابات وتحسين الأداء.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
