تلعب [مجموعات البيانات](/tag/مجموعات-[البيانات](/tag/البيانات)) المرجعية (Benchmark Datasets) دورًا حيويًا في [تقييم](/tag/تقييم) [نماذج [اللغات](/tag/اللغات) الضخمة](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)-الضخمة) (Large Language [Models](/tag/models)) بموثوقية وفاعلية. ولكن، أظهرت الدراسات الأخيرة أن العديد من هذه [المجموعات](/tag/المجموعات) تحتوي على تلوث، مما يُقلل من قيمتها كمعايير موثوقة لقياس قدرة [النماذج](/tag/النماذج) على [التعميم](/tag/التعميم).
أحضر هذا [البحث](/tag/البحث) المُثير للنقاش فكرة جعل [مجموعات البيانات](/tag/مجموعات-[البيانات](/tag/البيانات)) المرجعية [مقاومة](/tag/مقاومة) للتلوث (Contamination-Resistant)، بحيث لا يمكن "تعلمها" ولكنها لا تزال تدعم عمليات [الاستدلال](/tag/الاستدلال) (Inference).
أولاً، يكشف الباحثون عن وجود واسع لتلوث [مجموعات البيانات](/tag/مجموعات-[البيانات](/tag/البيانات)) المرجعية، مما يستدعي الحاجة الملحة لتحسين [خصائص](/tag/خصائص) هذه [المجموعات](/tag/المجموعات).
ثانيًا، يتم تسليط الضوء على كيفية [استغلال](/tag/استغلال) [التباين](/tag/التباين) بين عمليات [الاستدلال](/tag/الاستدلال) والتدريب في بنية [النماذج](/tag/النماذج) المعتمدة على الأطر التحويلية ([Transformer](/tag/transformer))، لضمان [مقاومة](/tag/مقاومة) التلوث.
ثالثًا، يتضمن [البحث](/tag/البحث) [تطورات](/tag/تطورات) [رياضية](/tag/رياضية) تهدف إلى جعل [مجموعات البيانات](/tag/مجموعات-[البيانات](/tag/البيانات)) هذه قابلة للتشغيل المتبادل [عبر](/tag/عبر) مختلف بنى [نماذج [اللغات](/tag/اللغات) الضخمة](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)-الضخمة) المتاحة.
يدعو [هذا العمل](/tag/هذا-العمل) المجتمع الأكاديمي والصناعي إلى ضرورة تعزيز [أساليب جديدة](/tag/[أساليب](/tag/أساليب)-جديدة) لمقاومة التلوث، وتطوير [منصات](/tag/منصات) داعمة، ودمج [المعايير](/tag/المعايير) المقاومة للتلوث في خطوط [التقييم](/tag/التقييم) الموجودة.
ما رأيكم في ضرورة [تحسين](/tag/تحسين) [موثوقية](/tag/موثوقية) [مجموعات البيانات](/tag/مجموعات-[البيانات](/tag/البيانات)) المرجعية؟ شاركونا في [التعليقات](/tag/التعليقات).
كيف يمكن أن تتحصن مجموعات البيانات المرجعية ضد التلوث؟
تفتقر مجموعات البيانات المرجعية المستخدمة في تقييم نماذج اللغات الضخمة (LLMs) إلى الموثوقية بسبب تلوثها. هذا البحث يسلط الضوء على ضرورة جعل هذه المجموعات مقاومة للتلوث وتأثيرها الإيجابي على قياس فعالية النماذج.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←# ذكاء اصطناعي# نماذج لغوية# بحث# بيانات# تقييم# تحسين النماذج# تكنولوجيا المعلومات# أبحاث الذكاء الاصطناعي
جاري تحميل التفاعلات...
