في عالم الذكاء الاصطناعي، تُعتبر [نماذج [اللغة](/tag/اللغة) الضخمة](/tag/[نماذج](/tag/نماذج)-[اللغة](/tag/اللغة)-الضخمة) (Large Language [Models](/tag/models) - [LLMs](/tag/llms)) من [الابتكارات](/tag/الابتكارات) الرائدة، لكنها ليست خالية من العيوب. قد تنتج هذه [النماذج](/tag/النماذج) نصوصًا تبدو صحيحة وموثوقة، لكنها قد تحتوي على [معلومات](/tag/معلومات) غير صحيحة تمامًا، مما يجعل الكشف عن هذه [الهلاوس](/tag/الهلاوس) أمرًا بالغ الأهمية، خاصة في المجالات الحساسة مثل [الطب والقانون](/tag/[الطب](/tag/الطب)-والقانون).
في هذا الإطار، قام الباحثون بدراسة شاملة للكشف عن [الهلاوس](/tag/الهلاوس) من خلال [تقييم أداء](/tag/[تقييم](/tag/تقييم)-[أداء](/tag/أداء)) 22 طريقة كشف، بما في ذلك اثني عشر نموذجًا مفتوح المصدر، موزعة على ست [عائلات](/tag/عائلات) بنيوية. النتائج كشفت عن كابوس مفاجئ؛ فالكثير من التقدم المُبلغ عنه في هذا المجال يمكن تفسيره في الواقع من خلال وجود عيوب في [بناء](/tag/بناء) [المعايير](/tag/المعايير) المستخدمة، حيث أظهرت أربع من أصل ست [مجموعات بيانات](/tag/مجموعات-[بيانات](/tag/بيانات)) أن الإجابات الصحيحة مدمجة مباشرة في المدخلات.
استخدام [نموذج](/tag/نموذج) بسيط يُسمى ‘TxTemb’ استغل هذه الثغرات لتحقيق درجات [كشف](/tag/كشف) شبه مثالية، وذلك دون الحاجة إلى الوصول إلى [المعلومات](/tag/المعلومات) الداخلية للنموذج. لذا جاءت الحاجة لتقييم حقيقي لقدرات الكشف المتبقية. تم تقديم نظام [جديد](/tag/جديد) يُسمى ‘DRIFT’، الذي يعمل كأداة مقارنة لتتبع انتقالات الحالة الخفية بين الطبقات في [نماذج اللغة](/tag/[نماذج](/tag/نماذج)-[اللغة](/tag/اللغة)).
النتائج المثيرة تظهر أن معظم الأساليب المعروفة تُظهر أداءً يشبه الصدفة تحت ظروف محكومة، مع وجود [استثناءات](/tag/استثناءات) ثابتة تتمثل في طريقتي SAPLMA وDRIFT، وهما [أدوات](/tag/أدوات) موجهة تركز على الحالات العليا. مما يُحتم على المجتمع العلمي إعادة [التفكير](/tag/التفكير) في كيفية [بناء](/tag/بناء) معاييره، والتأكد من توفير [أدوات](/tag/أدوات) الكشف الأكثر أمانًا وفعالية.
ماذا عنكم؟ ما رأيكم في هذه التطورات المثيرة في مجال [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي)؟ شاركونا آرائكم في [التعليقات](/tag/التعليقات)!
كيف نميز بين الهلاوس الحقيقية والفخاخ الفنية في نماذج اللغة الضخمة؟
يدرس البحث الأخير كيفية تمييز الهلاوس الناتجة عن نماذج اللغة الضخمة (LLMs) عن الفخاخ الفنية في بيانات الاختبار. رغم تقدم بعض الأساليب في اكتشاف الهلاوس، إلا أن معظم التقدم يُعزى إلى عيوب في بناء المعايير.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
