إن تدريب النماذج القوية للغة الكبيرة (LLMs) يتطلب إشرافاً عالي الجودة، وهو ما قد يكون نادراً. والأكثر إثارة للاهتمام، أن العمل الأخير يسلط الضوء على إمكانية استخدام بيانات التفضيل المرتبطة بنماذج ضعيفة لتوفير إشارات إشراف فعالة.

تمثل هذه البيانات إشارات "ضعيفة"، ورغم محدودية جودة الاستجابات الفردية، إلا أنها تعطي دلالة على الجودة النسبية. مما يثير سؤالاً بحثياً مهماً: هل يمكن تجميع عدة إشارات ضعيفة بشكل بناء لتحسين النماذج القوية؟

للإجابة على هذا السؤال، تم تقديم إطار عمل يحمل اسم "تجميع دلائل التفضيل" (Preference Delta Aggregation - PDA). يستخدم هذا النظام دلائل تفضيل من كل زوج من النماذج الضعيفة، حيث يتم معالجتها كمتوافق لوضعية منخفضة (LoRA) تتعلم من خلال تحسين التفضيل، ثم يتم دمجها عبر تقنيات LoRA.

علاوة على ذلك، قدم الباحثون أسلوباً جديداً يُعرف باسم "دمج المحاذاة الهندسية" (Geometric Alignment Merging - GAM) الذي يهدف إلى تخفيف التداخل الاتجاهي أثناء الدمج، مما يزيد من متانة التركيب لمجموعة الدلائل المختلفة.

النتائج الأولية التي تم تقييمها على معايير reasoning المعرفية والبحث الوكيني تُظهر أن تجميع عدة إشارات ضعيفة يمكن أن يدفع الأداء إلى ما هو أبعد من أي إشارة فردية. وفقًا للتحليلات، عُزيت هذه الزيادات إلى القدرة الفعالة على تجميع القدرات التكميلية المضمنة عبر دلائل التفضيل المتميزة.

تجدر الإشارة إلى أن تقنية PDA مع GAM حسّنت النماذج القوية بمتوسط نقاط يبلغ 6.8 و7.3 لمعايير reasoning المعرفية والبحث الوكيني على التوالي، متجاوزة بذلك جميع المعايير السابقة.

في ختام هذا المقال، يتضح أن توظيف الإشارات الضعيفة بذكاء يمكن أن يحدث تحولاً كبيراً في أداء نماذج الذكاء الاصطناعي. فهل أنتم مستعدون لاستكشاف المزيد من التطورات في هذا المجال؟ شاركونا في التعليقات.