في عالم الذكاء الاصطناعي، تسعى الفرق البحثية باستمرار لإيجاد حلول جديدة وفعالة لتعزيز أداء نماذج اللغات الضخمة (Large Language Models). وفي هذا السياق، تم الكشف عن إطار عمل جديد يُعرف باسم RIFT (Reward Informed Fine-Tuning)، الذي يُعتبر ثورة في طريقة تعديل العيّنات السلبية في بيانات التدريب.

يُعتبر تعديل البيانات الخاضعة للإشراف (Supervised Fine-Tuning - SFT) وتعديل البيانات باستخدام تقنية رفض العيّنات (Rejection Sampling Fine-Tuning - RFT) من الطرق الشائعة المستخدمة في توافق النماذج. إلا أن هذه الأساليب تعتمد غالباً على بيانات خبراء مكلفة أو تتجاهل العيّنات السلبية القيمة، مما يؤدي إلى عدم كفاءة في استخدام البيانات. يأتي RIFT ليحل هذه المشكلة.

يستخدم RIFT إطار عمل بسيط ولكنه فعّال، حيث يقوم بإعادة استخدام العيّنات السلبية وتعديل فقدان البيانات باستخدام مكافآت عددية، مما يعزز من التعلم من التجارب الإيجابية والسلبية الناتجة عن المخرجات النموذجية. ومن أجل التغلب على مشكلات انهيار التدريب الذي قد يحدث نتيجة التكامل البسيط للمكافآت، تم تقديم صيغة فقدان مستقرة تضمن قوة عددية وكفاءة في التحسين.

أظهرت التجارب المكثفة التي أُجريت على معايير رياضية متنوعة أن RIFT يتفوق باستمرار على RFT. وهذا يبرز قدرة RIFT كبديل قوي وفعّال للبيانات المختلطة ذات الجودة المتنوعة. إذا كنتم مهتمين بتحسين كفاءة نماذج الذكاء الاصطناعي، فإن RIFT يوفر فرصة مذهلة تستحق النظر.

ما رأيكم في هذا التطور؟ شاركونا في التعليقات!