في عالم الذكاء الاصطناعي، تتزايد الحاجة إلى تقييم موثوق لنماذج اللغات الضخمة (Large Language Models) لضمان دقتها وفعاليتها. لذا، تم تطوير نموذج Know2Guess كوسيلة مبتكرة تجمع بين تقييم الإجابات المدعومة والتخمينات غير المدعومة، مع مراعاة تأثير التلوث البياني (data contamination). يتضمن هذا النموذج معيارًا متعدد المناطق يحتوي على 1,200 عنصر موزعة عبر خمسة مجالات مختلفة مع توقعات واضحة للامتناع.
يتميز النموذج بتوفير بيانات تتعلق بمخاطر التلوث، مما يضمن تقييمًا شاملًا للتفاعل بين المعرفة والامتناع. تم اختبار نماذج FLAN-T5 وQwen2.5-Instruct وLlama-3-Instruct باستخدام بروتوكولات محددة حيث يتم حبس الأسئلة بين خيارين: الإجابة أو الامتناع.
تظهر النتائج أن النماذج المتقدمة مثل Qwen2.5-3B-Instruct تُظهر أفضل موثوقية عامة، على الرغم من أن مناطق الإجابة المتوقعة لا تزال تمثل تحديًا. كما تكشف التحليلات المتعلقة بقوة الطرح والبارس (parser) عن تصنيفات متماسكة ونتائج نوعية تُعزز الفهم المستقبلي للامتناع والتلوث. إن نموذج Know2Guess يقدم بروتوكولًا قابلًا للتكرار من شأنه أن يعزز من قدرة باحثي الذكاء الاصطناعي على تدقيق موثوقية نماذج اللغات الضخمة بعمق.
نموذج Know2Guess: المعايير الجديدة لتقييم حدود المعرفة في نماذج اللغات الضخمة
يقدم نموذج Know2Guess طريقة مبتكرة لتقييم نماذج اللغات الضخمة من خلال التركيز على التمييز بين الإجابات المدعومة والتخمينات غير المدعومة. تتيح هذه المعايير فهمًا أعمق لتفاعل المعرفة مع سلوكيات الامتناع والتلوث البياني.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
