في عالم الذكاء الاصطناعي، يعد تحسين التفضيلات في نماذج الانتشار ونماذج توافق التدفق من التحديات الهامة، حيث يعتمد ذلك على وظائف المكافآت التي تتمتع بقدرة تمييز قوية وكفاءة حسابية. في هذا الإطار، برزت نماذج اللغة والرؤية (Vision-Language Models) كمزود رئيسي لوظائف المكافأة، مستفيدة من معرفة متعددة الوسائط الغنية لديها لتوجيه عملية الضبط.
لكن التكاليف الحوسبية والذاكرية المرتبطة بهذه النماذج يمكن أن تكون كبيرة، بالإضافة إلى أن تحسين مولد الانتشار الكامن من خلال مكافآت في فضاء البكسل يؤدي إلى تناقض في المجال يُعقد عملية الضبط.
لكي نتجاوز هذه التحديات، تعرض الورقة الجديدة نموذجًا مبتكرًا يُدعى DiNa-LRM، وهو نموذج مكافأة كامن مستند إلى الانتشار يقوم بتشكيل عملية تعلم التفضيلات مباشرة على حالات الانتشار المليئة بالضجيج. يقدم هذا النموذجLikelihood Thurstone محسوبًا بالضجيج مع عدم اليقين المعتمد على ضجيج الانتشار.
يعتمد DiNa-LRM على هيكل خلفي لتوزيع محتمل تم تدريبه مسبقًا مزود برأس مكافأة مشروطة بوقت الخطوة، ويدعم دمج الضجيج خلال وقت الاستدلال، مما يعتمد آلية مستندة إلى الانتشار للتوسع في وقت الاختبار وتقديم مكافآت قوية.
أظهرت النتائج في معايير توافق الصور أن DiNa-LRM يتفوق بشكل كبير على المعايير السابقة للمكافآت المستندة إلى الانتشار، محققًا أداءً تنافسيًا مع نماذج الVLMs الرائدة بتكاليف حوسبية أقل بكثير. وعلاوة على ذلك، أثبتنا أن DiNa-LRM يحسن من ديناميكيات تحسين التفضيلات، مما يمكّن من ضبط النماذج بشكل أسرع وأكثر كفاءة.
ابتكار حديث في نماذج المكافآت: نموذج المكافأة الكامن المستند إلى الانتشار
في دراسة جديدة، تم اقتراح نموذج المكافأة الكامن المستند إلى الانتشار (DiNa-LRM) الذي يقدم حلاً مبتكرًا لتحسين عملية ضبط التفضيلات. هذا النموذج يفوق نماذج المكافآت التقليدية من حيث الكفاءة والأداء، مما يجعل التوجه نحو الذكاء الاصطناعي أكثر فائدة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
