تواجه نماذج اللغة الضخمة (LLMs) في العصر الحديث انتقادات متزايدة بسبب إنتاجها للنصوص المتكررة والمتجانسة، على الرغم من غنى المفردات الكامنة لديها. بينما ركزت الأبحاث السابقة على المعرفة والنماذج التدريبية، نسلط الضوء في دراستنا على دور آليات الاقتباس في كبح التنوع اللغوي.
نقدم لكم مقياس جديد يُعرف باسم مؤشر تغطية الكلمات (Word Coverage Score) الذي يقيس مدى إقصاء المفردات البشرية الملائمة سياقياً نتيجة استخدام المرشحات الشائعة في الاقتباس مثل Top-$p$ وTop-$k$ وMin-$p$. بدلاً من تقييم المعرفة الثابتة، يعمل مؤشر تغطية الكلمات على قياس معدل بقاء المفردات البشرية ذات التردد المنخفض والمعلومات العالية كتفاعل مع معايير الاقتباس.
من خلال تدقيق نماذج مفتوحة الوزن باستخدام مقتطفات من نصوص بشرية، حددنا الخيارات اللغوية المنطقية التي أصبحت غير قابلة للوصول إليها من قبل وحدات فك الشفرة، حتى وإن كانت داخل نطاق الاحتمالات. تكشف نتائجنا عن الأدلة الكمية التي تثبت أن الإعدادات الافتراضية للاقتباس في الصناعة تعمل كآليات رقابة غير مقصودة، مما يؤدي إلى تلطيف نسيج التعبير البشري إلى خطاب موحد.
يوفر مؤشر تغطية الكلمات إطاراً دقيقاً لتحسين توازن النصوص بين التماسك والثراء اللغوي، مما يسمح للأبحاث المستقبلية برصد التنوع اللغوي في النماذج التوليدية.
اكتشاف عوائق التعبير اللغوي: كيف تؤثر نماذج اللغة الضخمة على تنوع المفردات؟
تتناول دراسة حديثة تأثير تقنيات الاقتباس في نماذج اللغة الضخمة (Large Language Models) على التنوع اللغوي. من خلال تقديم مقياس جديد يُعرف بمؤشر تغطية الكلمات (Word Coverage Score)، يتضح كيف تؤثر هذه التقنيات في التعبير البشري.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
