تعتبر نماذج اللغات الضخمة (LLMs) من أبرز التطورات في الذكاء الاصطناعي، لكن استخدامها قد يؤدي إلى انتشار المعلومات المضللة، مما يعيق تحقيق الأهداف الاجتماعية مثل أهداف الأمم المتحدة للتنمية المستدامة. لقد أجريت دراسة جديدة تسلط الضوء على ثلاث عوامل رئيسية تقود هذه المعلومات المضللة، وهي: إطار القيمة، وزيادة حجم المعلومات، والتبسيط المفرط، والتي غالباً ما تتشكل بناءً على معتقدات مسبقة.
بناءً على الأدلة التي تُظهر أن LLMs تخزن هذه المعتقدات الافتراضية، مثل "السعادة إيجابية" و"الرياضيات معقدة"، فإن السؤال هو: هل يمكن استعادة تلك المُعتقدات التي تعزز سلوكيات المعلومات المضللة من خلال تصرفات LLMs كتوجيهات واضحة؟
تكمن الصعوبة الرئيسية في أن أساليب استخراج القواعد العالمية في الذكاء الاصطناعي القابل للتفسير (XAI) صُممت أساساً لمعالجة البيانات العددية، وليس النصوص. وللتغلب على هذا التحدي، اقترح الباحثون طرقاً لتوليد معتقدات عالمية من LLMs بدعم من قياسات عددية موثوقة، مما يجعل XAI قادراً على الكشف عن التوجهات المدفوعة بالمعتقدات.
لاختبار فعالية هذه الأساليب، قاموا بإدخال مُحفزات سلوكية غير خطية (univariate، conjunctive، non-convex) على نماذج من عائلة GPT ونموذج لاما من خلال تعليمات النظام. أظهرت النتائج أن طريقة RuleFit غالبًا ما تفوت المحفزات غير الأحادية، بينما كانت تقنية SHAP العالمية جيدة في تصنيف ميزات المحفزات التوليفية، لكنها لم تُنتج قواعد رمزية واضحة.
لتجاوز هذه الفجوة، اقترح الباحثون خوارزمية RuleSHAP، التي تجمع بين تجميعات SHAP العالمية واستنباط القواعد، مما يحسن قدرة الكشف عن المحفزات غير الأحادية، وحقق تحسيناً بمتوسط 82% على قياسات دقيقة مقارنة بـ RuleFit. تعكس هذه النتائج مسارًا عمليًا لتسليط الضوء على المحفزات السلوكية في نماذج اللغات الضخمة، مما يفتح الأفق نحو فهم أعمق لسلوكيات هذه النماذج.
كيف تكشف الأساليب العالمية للذكاء الاصطناعي عن سلوكيات مضافة في نماذج اللغات الضخمة؟ استكشاف SHAP مقابل استخراج القواعد مقابل RuleSHAP
توسع نماذج اللغات الضخمة (LLMs) من قدرة نشر المعلومات، مما يمكن أن يؤثر سلبًا على الأهداف الاجتماعية. تقدم دراسة جديدة طرقًا مبتكرة للكشف عن السلوكيات المضافة في هذه النماذج باستخدام تقنيات حديثة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
