في عالم التكنولوجيا المتقدمة، تعتبر أنظمة التوصية (Recommendation Systems) من العناصر الأساسية التي تعزز تجربة المستخدم. ومع ذلك، فإن استخدام نماذج لغوية ضخمة (Large Language Models) في هذه الأنظمة قد يواجه تحديات تتعلق بتحسين التفضيلات مباشرة. هنا يأتي دور نظام "DynamicPO" الذي يساهم في تغيير اللعبة.
تظهر الأبحاث أن تحسين التفضيلات المباشر (Direct Preference Optimization) يتطلب وظائف موضوعية متعددة السلبية لتحقيق الاستفادة من التغذية الراجعة الواسعة، مما يساعد على تحديد حدود التفضيلات بشكل أدق. ولكن المفاجأة كانت مع وجود ظاهرة غريبة تعرف بانهيار تحسين التفضيلات (Preference Optimization Collapse)، حيث يؤدي زيادة عدد عينات السلبية في بعض الأحيان إلى تدهور في الأداء، رغم انخفاض خسارة التدريب بشكل مستمر.
تفيد الأبحاث النظرية أن هذا الانهيار يحدث نتيجة لتثبيط التدرج الناجم عن هيمنة العينات السلبية السهلة التمييز على العينات الحرجة للحدود التي تعرف حقًا تفضيلات المستخدمين. بسبب ذلك، يتم إضعاف الإشارات ذات الصلة بالحدود، مما يؤثر سلبًا على دقة النموذج.
استجابةً لهذه المشكلات، تم تقديم إطار العمل "DynamicPO"، الذي يتضمن آليتين تكيفيتين:
1. **اختيار السلبية الديناميكية** (Dynamic Boundary Negative Selection) يقوم بتحديد وإعطاء الأولوية لعينة سلبية معلوماتية قريبة من حدود قرار النموذج.
2. **تعديل الحافة الثنائية الديناميكية** (Dual-Margin Dynamic beta Adjustment) يهدف لضبط قوة التحسين لكل عينة بناءً على غموض الحدود.
أظهرت التجارب الشاملة على ثلاث مجموعات بيانات عامة أن "DynamicPO" يمكنه بفعالية منع انهيار التحسين، مما يؤدي إلى تحسين دقة التوصيات في طرق تحسين التفضيلات المتعددة السلبية مع تكلفة حسابية بسيطة. يمكن الاطلاع على الشيفرة البرمجية ومجموعات البيانات المتاحة على [GitHub](https://github.com/xingyuHuxingyu/DynamicPO).
ما رأيكم في هذه الابتكارات الحديثة في عالم الذكاء الاصطناعي؟ شاركونا آراءكم في التعليقات.
دليل جديد لتحسين التفضيلات الديناميكية في أنظمة التوصية: DynamicPO
أطلق الباحثون نظام DynamicPO الذي يهدف لتحسين دقة التوصيات من خلال معالجة ظاهرة انهيار تحسين التفضيلات. تعتمد هذه التقنية على اختيار سلبية ديناميكية لتحسين موقف النموذج أمام تفضيلات المستخدمين.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
