تعتمد نماذج الذكاء الاصطناعي المدعومة بالبحث (Search-Augmented LLMs) على الاقتباسات كدليل لإظهار مصداقية الإجابات المقدمة للمستخدمين، إلا أن العديد منهم لا يتحقق من صحة الصفحات المقتبسة. إذ تمر ملايين الاستفسارات يومياً عبر هذه الأنظمة، مما يجعل جودة الاقتباسات أحد العوامل المهمة التي تحدد ما إذا كان المستخدمون يتم اطلاعهم على معلومات صحيحة أو مضللة. في هذا السياق، تم تطوير قاعدة بيانات جديدة تُدعى CITETRACE، والتي تعقب سلسلة الاقتباسات بالكامل من استفسار المستخدم إلى المصدر المسترجع ثم الإجابة المُولدة.
تتضمن قاعدة البيانات 11,200 استفسار حقيقي من 28 مجتمعاً، مرتبطة بـ 112,000 إجابة من عشرة نماذج عبر خمسة مزودين، مما ينتج عنه 761,495 زوجاً من الاقتباسات القابلة للتقييم. تم تصميم إطار تقييم ثلاثي الأبعاد لتقييم كل اقتباس بناءً على توافق الهدف والغرض، ملاءمة المصدر، وموثوقية المصدر للإجابة، باستخدام مصفوفات معتمدة من قبل خبراء ومقياس موثوقية من خمس مستويات.
عند تطبيق هذا الإطار، تم تحديد نمط منهجي يسمى "الخداع الموثوق" (VERIFIED MISGUIDANCE): حيث تقتبس النماذج مصادر حقيقية ومتاحة ولكن تفشل في واحدة أو أكثر من الأبعاد، مما يؤدي إلى صفقات تناقض بين الموثوقية وملاءمة المصادر. تشير النتائج إلى أن 30.6% من الاقتباسات تشوه مصادرها، و27.1% تأتي من مصادر غير مناسبة. بالإضافة إلى ذلك، تصل نسبة المستخدمين الذين يواجهون على الأقل اقتباساً واحداً مضللاً هي 96%. تكشف الاختلافات بين مقدمي الخدمة عن 88-96% من تباين جودة الاقتباسات، مما يشير إلى أن اختيار المصادر يتأثر بعوامل تتجاوز قدرة النموذج الفردي.
معاً، توفر CITETRACE وإطار تقييمها المورد الأول لتشخيص فشل الاقتباسات الهيكلية في الأنظمة المدعومة بالبحث التي تم نشرها.
خدع موثوقة: قياس فشل الاقتباسات في نماذج الذكاء الاصطناعي المدعومة بالبحث
تقدم دراسة جديدة بيانات هامة حول جودة الاقتباسات في نماذج الذكاء الاصطناعي، حيث تكشف عن فشلها في كثير من الأحيان في تقديم معلومات موثوقة. تساهم هذه النتائج في وضع معايير جديدة لتقييم دقة المعلومات المقدمة من خلال هذه الأنظمة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
