في عالم الذكاء الاصطناعي، تحظى نماذج اللغة الكبيرة (Large Language Models) بشعبية متزايدة، حيث يتم استخدامها في مجموعة متنوعة من التطبيقات. ولتكييف هذه النماذج مع المهام المتخصصة، يتم استخدام تقنية تحسين تحت الإشراف (Supervised Fine-Tuning - SFT). ومع ذلك، يواجه الباحثون تحديات متعددة، مثل التكاليف العالية والتي يمكن أن تؤدي إلى التحسين الزائد أو تضخيم التحيز.

لذا، ولتصحيح هذه النقاط الحرجة، تمثل تقنية اختيار دفعات البيانات المتنوعة (Utility-Diversity Sampling - UDS) الجديدة الحل الأمثل. تعتمد هذه التقنية على طريقة مبتكرة تجمع بين تحليل فائدة البيانات وتنوعها مما يساعد في تصفية العينة بشكل ديناميكي خلال عملية التدريب.

تعاني الأساليب المستخدمة حالياً من بعض العيوب، مثل الاعتماد فقط على فائدة البيانات دون أخذ التنوع بعين الاعتبار، وتطلب موارد خارجية إضافية مثل نماذج مرجعية، مما يؤدي إلى زيادة زمن التدريب. ولكن مع استخدام UDS، يمكن للباحثين تحسين كفاءة عمليات التدريب عبر استخدام قياسات مثل المعايير النووية لمصفوفة logits، ما يضمن الاستفادة المثلى من البيانات المتاحة.

وتجربتنا مع مجموعة من المؤشرات تبيّن نجاح UDS في التفوق على أساليب اختيار الدفعات التقليدية، مما يسهل تحقيق أداء أعلى في وقت أقل دون الاستعانة بأي موارد خارجية. وبالتالي، يمكن لمجتمع الذكاء الاصطناعي أن يتوقع تحسينات غير مسبوقة في كيفية تدريب النماذج.

هل أنتم مستعدون لتجربة هذه التقنية الجديدة في مشروعاتكم المستقبلية؟