في عالم الذكاء الاصطناعي، تعتبر نماذج اللغة الضخمة (Large Language Models) نقاط التقاء للتكنولوجيا والتفكير الإنساني، لكنها ليست معصومة من الأخطاء. فعندما "تهلوس" هذه النماذج، قد تبدو الإجابات النهائية خاطئة، لكن ما يحدث داخل النموذج قد يظل غامضًا. هنا يأتي دور TriLens، وهي أداة مبتكرة تهدف إلى كشف هذا الغموض.

تقوم فكرة TriLens على تحليل مخرجات النموذج في كل طبقة من خلال "عدسة اللوغيت" (logit lens) الخاصة بالنموذج، حيث تُقرأ مخرجات الانتباه الذاتي متعدد الرؤوس (multi-head self-attention) ومخرجات التغذية الأمامية (feed-forward) إلى جانب التيار المتبقي. ثم يتم تسجيل فقط قيمة الـ "انتروبي" (entropy) لكل مخرجة.

تقدم هذه الأداة مسارًا ثلاثي الأبعاد فعّالًا لفهم كيف تتشكل اليقين على مدى العمق والوظائف المختلفة للنموذج، دون الحاجة إلى تخزين حالات خفية عالية الأبعاد أو استكمال تجارب متعددة.

تظهر نتائج هذه الدراسات أن المسارات الثلاثة للانتروبي لكل وحدة تقدم أدلة تكاملية، مما يوسع من فهمنا لآلية اكتشاف هلوسة نماذج اللغة. يُظهر TriLens أن اكتشاف الهلوسة يمكن أن يستفيد من تتبع كيفية استقرار الحسابات الداخلية، وليس فقط ما تتنبأ به الطبقة النهائية.

إن تبني هذه التقنية يكشف عن آفاق جديدة في تحسين دقة نماذج الذكاء الاصطناعي، ويجعلنا نتساءل: كيف يمكن أن تؤثر هذه التطورات على المستقبل؟