عالم الذكاء الاصطناعي (AI) يشهد تطورات مثيرة، وخاصة في مجال تحسين تفضيلات الاختيار المباشر. في هذا الإطار، قدم الباحثون في ورقة بحثية جديدة تقنية مبتكرة تُعرف باسم "تحسين تفضيل الاختيار المباشر مع العقوبات" (DPOP).

تُعتبر هذه التقنية امتدادًا بسيطًا لتقنية "تحسين التفضيل المباشر" (DPO)، التي تعتمد على البيانات الثابتة لتدريب النماذج. ولكن، تتجاهل هذه الطريقة إشارة هامة يمكن استخدامها: الرد الذي يمكن أن تنتجه النموذج المرجعي لنفس المحفز.

تقنية DPOP تأتي لتحل هذه المشكلة عبر تطبيق عقوبات على الردود التي تقلل من احتمالية تفضيل الرد المُختار على الرد المُرفوض. وتُفعل هذه العقوبات فقط عندما تُعيّن السياسة الحالية احتمالية أقل للرد المفضل مقارنةً بالرد المرفوض.

نتائج الاختبارات على آلية "AlpacaEval 2.0" أظهرت أن DPOP تحسن معدل الفوز بطريقة مُتحكم بها على كل من نماذج "Llama-3-8b-it" و"Gemma-2-9b-it"، مع تحقيق مكاسب نسبية بلغت 5.3% و4.4% على التوالي. وهم أيضًا أظهروا أن الاستخدام الاستراتيجي للعقوبات النمطية يُعزز الأداء أكثر من الأساليب التقليدية كـ "NPO".

إن هذه النتائج تمثل خطوة هامة نحو تحسين كيفية استجابة نماذج الذكاء الاصطناعي، مما قد يؤثر بشكل كبير على التطبيقات المستقبلية في مجالات متعددة.

ما رأيكم في هذا التطور الرائع؟ شاركونا في التعليقات!