في عالم الذكاء الاصطناعي، تحتل نماذج اللغات الضخمة (LLMs) مكانة بارزة، ولكن كيف تقيس هذه النماذج التغييرات الدلالية في النصوص؟ في دراسة جديدة، تم تقديم إطار تجريبي صريح يستكشف مدى حساسية هذه النماذج للتغيرات الصغيرة في مقارنة الوثائق. تعتمد الدراسة على مفهوم شبيه بالبحث عن إبرة في كومة قش، حيث يتم تضمين جملة واحدة متغيرة دلالياً (الإبرة) داخل سياق واسع (كومة القش).
تمت التجارب عبر مجموعة متنوعة من الأنواع، حيث تم التلاعب بنوع الاضطراب (مثل النفي، تبديل الروابط، واستبدال الكيانات المعنوية) ونوع السياق (الأصلي مقابل غير المتعلق بالموضوع) وموقع الإبرة في الوثيقة وطول الوثيقة. تم اختبار خمسة نماذج لعدد كبير من أزواج الوثائق، مما أتاح لنا تكوين رؤى مفيدة حول كيفية أداء هذه النماذج.
أظهرت النتائج الأولى أن نماذج اللغات الضخمة تعاني من تحيز موقعي داخل الوثيقة، حيث تميل النماذج إلى فرض عقوبات أكثر شدة على الاختلافات الدلالية عندما تحدث في البداية.
علاوة على ذلك، عندما تحاط الجملة المعدلة بسياق غير ذي صلة بالموضوع، تنخفض درجات التشابه بشكل منهجي، مما يؤدي إلى نتائج متباينة تشير إما إلى تشابه منخفض جداً أو مرتفع جداً. وهذا يتماشى مع إطار تفسير يُبرز أن السياق المتعلق بالموضوع يعزز قدرة النماذج على فهم وتخفيف حدة التغييرات.
الأهم من ذلك، أن كل نموذج من النماذج يقدم توزيع درجات متميز، وهو "بصمة" ثابتة تُظهر استجابة متسقة تتجاوز نوع الاضطراب، مما يبرز التسلسل الهرمي العالمي لكيفية تعامل النماذج مع أنواع الاضطراب المختلفة.
تشير هذه النتائج إلى أن درجات التشابه الدلالية لنماذج اللغات الضخمة حساسة لهياكل الوثائق وتماسك السياق وهوية النموذج بطرق تتجاوز التغيير الدلالي نفسه. الإطار المقترح يوفر أدوات عملية لمراجعة ومقارنة سلوك التقييم عبر النماذج الحالية والمستقبلية.
استكشاف دقيق: كيف يمكن لنماذج اللغات الضخمة قياس الاختلافات الفعلية بين الوثائق؟
تقدم دراسة جديدة إطاراً تجريبياً واسع النطاق يكشف كيف تتأثر نماذج اللغات الضخمة (LLMs) بالتغيرات الدلالية الطفيفة في مقارنة الوثائق. النتائج تشير إلى وجود انحياز هيكلي في أداء النماذج حسب سياق الوثائق.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
