في عالم [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي) المتسارع، يأتي إعلان [EvalMORAAL](/tag/evalmoraal) كخطوة ثورية [نحو](/tag/نحو) [تحقيق](/tag/تحقيق) [توافق](/tag/توافق) أخلاقي مع القيم الإنسانية. يعتمد [EvalMORAAL](/tag/evalmoraal) على إطار [عمل](/tag/عمل) مصمم بعناية لتقديم [تقييمات](/tag/تقييمات) أخلاقية دقيقة لنماذج [اللغة](/tag/اللغة) الضخمة (Large Language [Models](/tag/models)) [عبر](/tag/عبر) [أساليب](/tag/أساليب) [تقييم](/tag/تقييم) مبتكرة. باستخدام طريقتين للتقييم؛ [احتمالات](/tag/احتمالات) التسجيل (log-probabilities) وتقييمات مباشرة، بالإضافة إلى مراجعة متبادلة من [نموذج](/tag/نموذج) كحكم (model-as-judge) - يتمكن الفريق من [تقييم](/tag/تقييم) [توافق](/tag/توافق) 20 نموذجاً على أساس [استطلاعات](/tag/استطلاعات) القيم العالمية ([World](/tag/world) Values Survey) ومواقف عالمية من PEW.

تظهر النتائج أن [النماذج](/tag/النماذج) الأفضل أداءً تتوافق بشكل كبير مع إجابات الاستطلاع، حيث بلغت نسبة الارتباط (Pearson's r) حوالي 0.90. ومع ذلك، يكشف [التحليل](/tag/التحليل) عن وجود فجوة إقليمية ملحوظة: إذ حققت [النماذج](/tag/النماذج) في المناطق الغربية معدل ارتباط يقدر بـ 0.82، بينما سجلت المناطق غير الغربية 0.61، مما يعكس فجوة مطردة بمقدار 0.21.

يشمل إطار [EvalMORAAL](/tag/evalmoraal) ثلاثة عناصر رئيسية: أولاً، طريقتين للتقييم لكافة [النماذج](/tag/النماذج) لتسهيل المقارنة العادلة. ثانياً، [بروتوكول](/tag/بروتوكول) هيكلي لتفكير متسلسل مع عمليات [تحقق](/tag/تحقق) ذاتية. ثالثاً، مراجعة من [نموذج](/tag/نموذج) كحكم تسلط الضوء على 348 تضارباً باستخدام عتبة مدفوعة بالبيانات. ترابط اتفاق المراجعات مع [توافق](/tag/توافق) استجابة استطلاع القيم العالمية يشير إلى فائدة [تكنولوجيا](/tag/تكنولوجيا) [التحقق](/tag/التحقق) الأوتوماتيكي ذات الجودة العالية.

هذه النتائج تمثل تقدماً حقيقياً [نحو](/tag/نحو) [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي) المدرك ثقافياً، ولكنها أيضاً تبرز التحديات المفتوحة اللازمة لتحقيق الاستخدام الأمثل [عبر](/tag/عبر) المناطق المختلفة. كيف يمكن لنماذج [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي) أن تشير وتحترم القيم الثقافية المتنوعة؟