في ظل الاعتماد المتزايد على [أنظمة](/tag/أنظمة) الذكاء الاصطناعي، تبرز الحاجة إلى طرق فعالة لتقييم جودة نتائج هذه الأنظمة. هنا تأتي [نماذج [اللغات](/tag/اللغات) الكبيرة](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)-الكبيرة) ([LLMs](/tag/llms)) لتسهم في هذا السياق، حيث تُستخدم هذه النماذج، بشكل متزايد، كأدوات لتقييم [أنظمة](/tag/أنظمة) [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي) وتقديم آرائها حول جودة ومناسبة وأمان مخرجات [النماذج](/tag/النماذج). لكن يبقى السؤال الأهم: [كم](/tag/كم) [عدد](/tag/عدد) [التقييمات](/tag/التقييمات) البشرية التي تحتاجها لتكون هذه الآراء كافية ودقيقة؟

تقليديًا، كانت [التقييمات](/tag/التقييمات) البشرية تُعتبر المصدر الذهبي لتقدير جودة الأنظمة، ولكنها باهظة الثمن وصعبة [التوسع](/tag/التوسع). لذا، أصبحت [تقييمات](/tag/تقييمات) [LLMs](/tag/llms) تحظى بشعبية لأنها تُنتج بسرعة وبتكاليف منخفضة. ومع ذلك، فإن الأساليب المستخدمة حاليًا في [تنفيذ](/tag/تنفيذ) هذه [التقييمات](/tag/التقييمات) تفتقر إلى الأسس العلمية السليمة، حيث تركز غالبًا على قياسات الاتفاق بين القضاة البشريين وLLMs دون وجود [دراسة](/tag/دراسة) تصميمية مناسبة.

تقدم هذه الورقة البحثية فكرة جديدة بالانتقال من اعتبار [LLMs](/tag/llms) بدائل إلى دور مساعد في [التقييم](/tag/التقييم) البشري من خلال [تصميم](/tag/تصميم) أخذ عينات ذو مرحلتين. في المرحلة الأولى، تُقَيِّم [LLMs](/tag/llms) جميع الملاحظات، بينما تُجمع [التقييمات](/tag/التقييمات) البشرية لجزء فرعي في المرحلة الثانية. المقترح هنا هو استخدام مُقَيِّم ذا مناعة مزدوجة من [أدب](/tag/أدب) [البيانات](/tag/البيانات) المفقودة، والذي يستفيد من خاصية الممانعة ضد [نموذج](/tag/نموذج) التوقع، حيث يتم [تصميم النموذج](/tag/[تصميم](/tag/تصميم)-النموذج) المفقود بعناية.

أيضًا، تشير النتائج إلى أنه يمكن [تصميم](/tag/تصميم) [دراسة](/tag/دراسة) بكفاءة من خلال [تخصيص](/tag/تخصيص) [عدد](/tag/عدد) أكبر من [التقييمات](/tag/التقييمات) البشرية لأنواع [التقييمات](/tag/التقييمات) التي لا تكون [توقعات](/tag/توقعات) [LLMs](/tag/llms) عالية فيها. هذه [الدراسة](/tag/الدراسة) تمهد الطريق لفهم أفضل حول مدى ضرورة إشراف البشر عند [تقييم المعايير](/tag/[تقييم](/tag/تقييم)-[المعايير](/tag/المعايير)).