في عالم الذكاء الاصطناعي، يتعين على نماذج اللغة التكيف مع تفضيلات البشر من خلال تحسين الأهداف السلوكية بشكل متواصل. وفي هذا السياق، جرت دراسة جديدة تدرس الطريقة المتبعة في تحسين التفضيلات المباشرة (Direct Preference Optimisation - DPO) تسلسلياً عبر أربعة إعدادات مختلفة من التفضيلات.
تتناول الدراسة أربعة مواضيع رئيسية: الصراع التوزيعي، التفاعل متعدد الصفات، الإشارات القوية التي تدل على الأمان، والأهداف المتعلقة بجودة الاستجابة. استخدمت الدراسة نموذج Llama-3.1-8B-Instruct مع محولات LoRA، وتم تقييم جميع الأهداف بعد كل مرحلة مع الإشارة إلى نموذج مرجعي ثابت.
النتائج الأكثر إثارة للاهتمام أظهرت أن تحسين التفضيلات بطرق تسلسلية لا ينتج عنه نمط نسيان موحد كما كان متوقعاً. بدلاً من ذلك، يتفاوت التغيير في التفضيلات من تدهور جزئي إلى استقرار، أو إعادة توزيع على مستوى الزوج، أو حتى نقل إيجابي. وبتحليل مفصل لمستويات الثقة في الزوج، وُجد أن بعض الأزواج العالية الثقة يمكن أن تتدهور أو تتحسن بناءً على الإعداد.
علاوة على ذلك، تُظهر نتائج التشخيص الميكانيكي أن التحديثات في المرحلة الثانية تقريباً متعامدة مع الأهداف السابقة، مما يطرح تساؤلات حول مدى تأثير الأهداف في المراحل اللاحقة على تفضيلات المراحل السابقة.
تدعو هذه النتائج الإيجابية المستقبلية إلى ضرورة مراعاة توافق الأهداف وقوة الإشارات في خطط المحاذاة التسلسلية، بدلًا من الافتراض أن الأهداف اللاحقة تنعكس على التفضيلات السابقة بشكل موحد.
إعادة التفكير في النسيان المُوحّد: دراسة جديدة حول تحسين تفضيلات مباشرة تسلسلياً
تظهر دراسة حديثة أن تحسين التفضيلات في نماذج اللغة لا يتبع نمط نسيان موحد، بل يتأثر بعلاقات الأهداف وقوة الإشارات. هذا يعد اكتشافاً مهماً لنماذج اللغة لتواكب تفضيلات البشر بفعالية أكبر.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
