في عالم الذكاء الاصطناعي، يعد تحسين نماذج اللغات الضخمة (Large Language Models) من المهام الحيوية التي تبحث عن أساليب محدثة وفعالة. ومن خلال دراسة جديدة، تم تقديم طريقة مبتكرة لانتقاء البيانات عبر الإنترنت (Online Data Selection) وإعادة الوزن (Reweighting) التي تهدف إلى تعزيز عملية الضبط الدقيق (Fine-Tuning) بشكل أكبر.

تُعرف تقنيات اختيار البيانات القائمة على التدرجات (Gradient-based Data Selection) بأنها تقدم إطار عمل مُعتمد لتقدير فائدة العينات في الضبط الدقيق. غير أن الأساليب المتوفرة حالياً صممت غالباً لتناسب البيئات غير المتصلة (Offline)، مما يجعلها أقل فعالية في السيناريوهات التي تتطلب المعالجة المباشرة للبيانات المتدفقة.

المقاربة الجديدة تركز على تحسين كيفية اختيار البيانات عندما تأتي العينات واحدة تلو الأخرى، حيث يعتبر نوع البيانات المفيدة خطوة تعتمد على الحالة الحالية للمُحسّن (Optimizer). بعبارة أخرى، لا يجب اعتبار اختيار البيانات كعملية ثابتة، بل يجب أن يُعامل على أنه جزء أساسي من عملية التحديث المستهدفة.

تم تطوير خوارزمية تُعرف باسم "Filter-then-Weight" التي تبدأ بتصفية العينات المفيدة من الناحية الهندسية، ثم تعيد وزن هذه العينات بشكل فعال. كما تم إدخال تمثيل متدرج يعتمد على المنتجات الخارجية المحسوبة، مما يسهل معالجة البيانات ذات السياقات الطويلة.

تجارب عملية أثبتت أن هذه الطريقة تفوق الأداء التقليدي في تحسين نموذج اللغة، حيث تحقق نتائج ملحوظة في سرعة التقارب والأداء في المهام اللاحقة. هل أنتم مستعدون لاكتشاف آفاق جديدة في عالم الذكاء الاصطناعي؟ شاركونا آراءكم في التعليقات!