في ظل الاعتماد المتزايد على أنظمة الذكاء الاصطناعي، تبرز الحاجة إلى طرق فعالة لتقييم جودة نتائج هذه الأنظمة. هنا تأتي نماذج اللغات الكبيرة (LLMs) لتسهم في هذا السياق، حيث تُستخدم هذه النماذج، بشكل متزايد، كأدوات لتقييم أنظمة الذكاء الاصطناعي وتقديم آرائها حول جودة ومناسبة وأمان مخرجات النماذج. لكن يبقى السؤال الأهم: كم عدد التقييمات البشرية التي تحتاجها لتكون هذه الآراء كافية ودقيقة؟
تقليديًا، كانت التقييمات البشرية تُعتبر المصدر الذهبي لتقدير جودة الأنظمة، ولكنها باهظة الثمن وصعبة التوسع. لذا، أصبحت تقييمات LLMs تحظى بشعبية لأنها تُنتج بسرعة وبتكاليف منخفضة. ومع ذلك، فإن الأساليب المستخدمة حاليًا في تنفيذ هذه التقييمات تفتقر إلى الأسس العلمية السليمة، حيث تركز غالبًا على قياسات الاتفاق بين القضاة البشريين وLLMs دون وجود دراسة تصميمية مناسبة.
تقدم هذه الورقة البحثية فكرة جديدة بالانتقال من اعتبار LLMs بدائل إلى دور مساعد في التقييم البشري من خلال تصميم أخذ عينات ذو مرحلتين. في المرحلة الأولى، تُقَيِّم LLMs جميع الملاحظات، بينما تُجمع التقييمات البشرية لجزء فرعي في المرحلة الثانية. المقترح هنا هو استخدام مُقَيِّم ذا مناعة مزدوجة من أدب البيانات المفقودة، والذي يستفيد من خاصية الممانعة ضد نموذج التوقع، حيث يتم تصميم النموذج المفقود بعناية.
أيضًا، تشير النتائج إلى أنه يمكن تصميم دراسة بكفاءة من خلال تخصيص عدد أكبر من التقييمات البشرية لأنواع التقييمات التي لا تكون توقعات LLMs عالية فيها. هذه الدراسة تمهد الطريق لفهم أفضل حول مدى ضرورة إشراف البشر عند تقييم المعايير.
هل يكفي الذكاء الاصطناعي لتقييم الجودة؟ مراجعة شاملة حول تعزيز التقييم البشري بنماذج اللغة الكبيرة!
تستكشف الدراسات الحديثة دور نماذج اللغات الكبيرة (LLMs) كأدوات تقييم آلية، وتطرح سؤالاً: كم عدد التقييمات البشرية التي تحتاجها لتحقيق الدقة؟ هذه المقالة تسلط الضوء على تحول دور LLMs من بديل إلى مساعد في التقييم البشري.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
