في عالم الذكاء الاصطناعي الحديث، يُعتبر اختيار بيانات التدريب أحد العوامل الأساسية التي تؤثر بشكل كبير على أداء نماذج اللغة (Language Models). وقد تم التعرف على أن وجود آليات فعالة لاختيار البيانات يمكن أن يعزز هذه النماذج ويدفعها نحو تحقيق نتائج أفضل.
وفي هذا السياق، تم طرح إطار عمل جديد يسمى WebGraphMix، والذي يعد حلاً خفيف الوزن لمشكلة اختيار البيانات، حيث يعتمد على حساب درجات المركزية (Centrality Scores) ضمن الشبكة العالمية المستندة إلى Common Crawl. ويتجنب WebGraphMix الآثار السلبية للاعتماد على classifiers مساعدة لتحسين أداء الوثائق، مما يقلل من الأعباء الحوسبية والاعتماد على البيانات المعلّمة.
يعتمد نهج WebGraphMix على فرضية أن المواقع المركزية تعرّض النماذج لتمثيلات قابلة لإعادة الاستخدام، بينما تحتفظ المواقع الطرفية بمعارف متخصصة ونادرة. وبفضل كفاءته، لا يحتاج WebGraphMix إلى تدريب نموذج أو بيانات معنونة، مما يجعله مثاليًا للاستخدام على نطاق واسع على الإنترنت.
تم دمج WebGraphMix في خط أنابيب DataComp-LM، حيث تم تدريب النماذج مع 400 مليون و 1 مليار معلمة باستخدام 8 مليار و 28 مليار توكن على التوالي. تم تقييم النماذج على 23 مهمة متنوعة تتراوح بين المعرفة الواقعية والتفكير الرمزي. وكشفت التجارب أن المناطق المركزية والطرفية في الشبكة تتمتع بقدرات مكملة، حيث أن الجمع بين الاثنين بنسبة 1:1 أسفر عن نتيجة متوسطة تصل إلى 41.4%، مقارنة بـ39.8% للاختيار العشوائي.
هذه النتائج تبرز أن التركيب الهيكلي للشبكة يمكن أن يكون محورا هاما في اختيار بيانات التدريب، مشيرة إلى معلومات جديدة تتجاوز الأساليب التي تعتمد على محتوى البيانات الحالية.
استكشاف قوة بيانات التدريب: استراتيجية اختيار البيانات من خلال مركزية الشبكة
تقدم الدراسة الجديدة WebGraphMix، وهي إطار عمل فعال لاختيار بيانات التدريب، مما يعزز أداء نماذج اللغة بشكل ملحوظ. تعتمد الاستراتيجية على تحليل مركزية الشبكة لتحديد أهمية الوثائق في العملية التدريبية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
