ابتكار حديث في نماذج المكافآت: نموذج المكافأة الكامن المستند إلى الانتشار

Q: ما هو موضوع مقال "ابتكار حديث في نماذج المكافآت: نموذج المكافأة الكامن المستند إلى الانتشار"؟

يتناول المقال بالتفصيل والتحليل آخر الأخبار والتطورات المتعلقة بـ "ابتكار حديث في نماذج المكافآت: نموذج المكافأة الكامن المستند إلى الانتشار" في عالم الذكاء الاصطناعي والتكنولوجيا الناشئة.

في عالم الذكاء الاصطناعي، يعد تحسين التفضيلات في نماذج الانتشار ونماذج توافق التدفق من التحديات الهامة، حيث يعتمد ذلك على وظائف المكافآت التي تتمتع بقدرة تمييز قوية وكفاءة حسابية. في هذا الإطار، برزت نماذج اللغة والرؤية (Vision-Language Models) كمزود رئيسي لوظائف المكافأة، مستفيدة من معرفة متعددة الوسائط الغنية لديها لتوجيه عملية الضبط.

لكن التكاليف الحوسبية والذاكرية المرتبطة بهذه النماذج يمكن أن تكون كبيرة، بالإضافة إلى أن تحسين مولد الانتشار الكامن من خلال مكافآت في فضاء البكسل يؤدي إلى تناقض في المجال يُعقد عملية الضبط.

لكي نتجاوز هذه التحديات، تعرض الورقة الجديدة نموذجًا مبتكرًا يُدعى DiNa-LRM، وهو نموذج مكافأة كامن مستند إلى الانتشار يقوم بتشكيل عملية تعلم التفضيلات مباشرة على حالات الانتشار المليئة بالضجيج. يقدم هذا النموذجLikelihood Thurstone محسوبًا بالضجيج مع عدم اليقين المعتمد على ضجيج الانتشار.

يعتمد DiNa-LRM على هيكل خلفي لتوزيع محتمل تم تدريبه مسبقًا مزود برأس مكافأة مشروطة بوقت الخطوة، ويدعم دمج الضجيج خلال وقت الاستدلال، مما يعتمد آلية مستندة إلى الانتشار للتوسع في وقت الاختبار وتقديم مكافآت قوية.

أظهرت النتائج في معايير توافق الصور أن DiNa-LRM يتفوق بشكل كبير على المعايير السابقة للمكافآت المستندة إلى الانتشار، محققًا أداءً تنافسيًا مع نماذج الVLMs الرائدة بتكاليف حوسبية أقل بكثير. وعلاوة على ذلك، أثبتنا أن DiNa-LRM يحسن من ديناميكيات تحسين التفضيلات، مما يمكّن من ضبط النماذج بشكل أسرع وأكثر كفاءة.

ابتكار حديث في نماذج المكافآت: نموذج المكافأة الكامن المستند إلى الانتشار

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

ثورة ذكاء اصطناعي: المساعد الجديد من أدوبي يمكنه إنجاز المهام عبر جميع تطبيقاتك الإبداعية!

ثورة جديدة في عالم الحوسبة: استثمار ضخم ينذر بإطلاق عملاق الحوسبة التالي

هل تتجه أنظار المستثمرين نحو Anthropic بعد موجة الدولار؟