في عالم الذكاء الاصطناعي، تعد نماذج اللغات الضخمة (Large Language Models) من أكثر الأدوات إثارة للاهتمام والجدل. وإذا كنا نبحث عن طرق لتعزيز دقة هذه النماذج وتفادي ما يعرف بالهلاوس (hallucinations)، فإن تقدير عدم اليقين المستند إلى البروب (Probe-Based Uncertainty Estimation) يعد خيارًا واعدًا.

تظهر الدراسات الأخيرة أن تصميم الميزات وبيانات التدريب وإعدادات التقييم تتفاوت بشكل كبير، مما يؤدي إلى غموض حول العوامل التي تؤثر فعلاً على الأداء الفعلي. في هذا السياق، نقدم دراسة متعمقة تركز على تقدير عدم اليقين المستند إلى البروب جميعها تحت ظروف متطابقة.

تشير نتائجنا إلى أن الحالات المخفية الخام وميزات الانتباه (attention features) تتفوق في الأداء في البيئات المتطابقة، لكن عند حدوث تغيير في التوزيع، تظهر الميزات المنظمة والمضغوطة (structured and compressed features) كأكثر مرونة. هذا يشير بما لا يدع مجالًا للشك إلى أن الأداء الجيد في البيئة المتطابقة وحده ليس كافيًا لقياس التقدم.

علاوة على ذلك، يلعب تصميم المحفزات وتكوين التسميات دورًا كبيرًا في سلوك البروب، مما يعكس أهمية تطبيق أفضل الممارسات في هذا المجال. بناءً على هذه النتائج، قمنا بتدريب نماذج بروب مسبقة التدريب يمكنها نقل الأداء بشكل معقول إلى توليد الحقائق المفتوحة، مما يوفر نقطة انطلاق مستقرة.

تشجع هذه الدراسة على تقييمات أكثر توجهاً نحو التطبيق لتقديرات عدم اليقين المستندة إلى البروب، مما يفتح المجال لإمكانيات جديدة في عالم نماذج الذكاء الاصطناعي.