شهدت نماذج اللغات الضخمة (Large Language Models) في الآونة الأخيرة تقدماً ملحوظاً في مجال الترجمة الآلية (Machine Translation - MT)، لكن كانت تعاني من الاعتماد الكبير على إشارات إشراف خارجية أثناء التدريب، مما يتطلب بيانات مرجعية تم تصنيفها من قبل البشر أو نماذج مكافآت مدربة (Reward Models - RMs) والتي تعتبر غالبًا مكلفة وصعبة التوسع.

لذا، جاء الاقتراح الثوري لنموذج SSR-Zero الذي بعيدًا عن الركيكة التقليدية، يتيح الإعتماد على مكافآت ذاتية الحكم بشكلٍ كامل، مما يجعل النظام مرنًا وفعالًا في التدريب عبر شبكة الإنترنت بدون أي إشراف خارجي.

من خلال التدريب باستخدام 13,000 مثال أحادي اللغة، تم استخدام نموذج Qwen-2.5-7B كعمود فقري، حيث تفوقت نموذج SSR-Zero-7B على النماذج التقليدية الخاصة بالترجمة مثل TowerInstruct-13B وGemmaX-28-9B، بالإضافة إلى نماذج عامة أكبر مثل Qwen2.5-32B-Instruct، في مهام الترجمة الإنجليزية مقابل الصينية من المعايير WMT23 وWMT24 وFlores200.

ويظهر التحليل الذي أُجري فعالية آلية المكافآت الذاتية مقارنةً بالطريقة التقليدية للّغات كحكم في الترجمة، حيث تقدم الفوائد التكميلية عند الجمع بينها وبين نماذج المكافآت المدربة. ولقد تم公开 إطلاق الشيفرة والبيانات والنماذج الخاصة بنا، مما يسمح للباحثين والمطورين بالاستفادة من هذه التقنية الجديدة والمثيرة.

هل أنتم مستعدون لاستكشاف كيفية تأثير الذات في تحسين التعلم وتعزيز أداء الترجمة الآلية؟ شاركونا آراءكم في التعليقات!