في عصر الذكاء الاصطناعي المتطور، يزداد التركيز على كيفية اختيار بيانات التدريب بشكل فعال من أجل تحسين النماذج اللغوية. وقد أطلقت دراسة جديدة تقنية CRAFT، والتي تعني التحليل المنظم للبيانات (Clustered Regression for Adaptive Filtering of Training data). تهدف هذه التقنية إلى اختيار مجموعة صغيرة وعالية الجودة من البيانات من مجموعة ضخمة تحتوي على ملايين النقاط، مما يجعل عملية ضبط النموذج الكامل أكثر جدوى.
تعمل تقنية CRAFT على تقسيم التوزيع المشترك بين المصدر والهدف، وتطبق عملية اختيار من مرحلتين. في المرحلة الأولى، يتم مطابقة توزيع المصدر الخاص بالتقييم من خلال تخصيص ميزانية متناسبة عبر تجمعات k-means. في المرحلة الثانية، يتم اختيار أزواج التدريب داخل كل تجمع مصدر بناءً على الحد الأدنى لمعدل البعد المتوقع الشرطي المستمد من توزيع الهدف الخاص بالتقييم.
تثبت نتائج الدراسة أن تخصيص التجمعات المتناسب يحدد الحد الأقصى للفرق المستمر بين التوزيعات المختارة وتوزيعات التقييم. تم تقييم CRAFT في ترجمة الإنجليزية-الهندية من خلال اختيار بيانات التدريب من 33 مليون زوج من جمل NLLB، وأظهرت نتائج ممتازة، حيث حققت 43.34 في تصنيف BLEU، متفوقة على تقنية TSDS التي سجلت 41.21.
ما يميز CRAFT هو سرعتها في إتمام عملية الاختيار، حيث تمت العملية أكثر من 40 مرة بسرعة أكبر. باستخدام تقنية TF-IDF، تستغرق العملية بأكملها أقل من دقيقة على المعالج المركزي، مما يجعلها طريقة مثالية للباحثين والممارسين في هذا المجال.
اكتشف قوة CRAFT: طريقة مبتكرة لتحسين اختيار بيانات التدريب للذكاء الاصطناعي!
طرحت دراسة جديدة تقنية CRAFT لتحسين عملية اختيار بيانات التدريب للنماذج اللغوية باستخدام نهج مبتكر يركز على الجودة والسرعة. هذه الطريقة تعد خطوة كبيرة نحو تقليل تكاليف التدريب وزيادة دقة النماذج.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
