في عالم الذكاء الاصطناعي سريع التطور، تعتبر نماذج اللغة جزءاً حيوياً من الابتكار التقني. ومع ذلك، يسعى الباحثون دائماً للبحث عن أساليب جديدة لتحسين أداء هذه النماذج. هنا تأتي أهمية استراتيجية Token-level Bregman Preference Optimization (TBPO) التي تمثل ثورة في عالم تحسين تفضيلات الرموز.

حالياً، تُستخدم طرق مثل Direct Preference Optimization (DPO) بشكل واسع لتحسين توافق نماذج اللغة اعتماداً على تفضيلات ثنائية. ولكن، على الرغم من ذلك، فإن هذه الطرق تركز على التفضيلات على مستوى التسلسلات، مما يجعل بعض القرارات على مستوى الرموز غير متناسبة. في TBPO، يتم تناول هذا التحدي بطريقة مبتكرة، حيث تقترح نموذج تفضيل على مستوى الرمز يستند إلى الاختيارات التالية المشروطة على المقدم (prefix).

تعتبر TBPO محورية في إعادة تشكيل الطريقة التي نتعامل بها مع تفضيلات النماذج. حيث تقدم هدف مطابقة قياس برغمان (Bregman divergence density-ratio matching) الذي لا يدعم فقط فقدان DPO بل يمتاز أيضاً ببساطته. وبهذا، يعزز TBPO من جودة التوافق والاستقرار التدريبي، بالإضافة إلى زيادة تنوع المخرجات مقارنةً بالنماذج التقليدية.

بالإضافة إلى ذلك، تم تقديم نسختين من TBPO: TBPO-Q، التي تركز على تعلم قاعدة حالة خفيفة الوزن، و TBPO-A، التي تزيل القاعدة من خلال تطبيع المزايا. أثبتت كلتا النسختين قدرتهما على تحسين تفضيلات النماذج عبر مجموعة متنوعة من المهام، بما في ذلك تحقيق التعليمات وتحقيق التوازن بين الفائدة والضرر.