يُعد [التوافق](/tag/التوافق) بين [الوكلاء](/tag/الوكلاء) المستقلين ونوايا البشر من التحديات الأساسية في مجال [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي) الحديث. ومن أبرز النتائج السلبية لهذا التحدي هو مفهوم [استغلال](/tag/استغلال) [المكافآت](/tag/المكافآت) (reward hacking)، حيث تظهر الأنظمة كأنها ناجحة من خلال [إشارات](/tag/إشارات) التقييم، بينما تنتهك الأهداف المقصودة. تمت ملاحظة [استغلال](/tag/استغلال) [المكافآت](/tag/المكافآت) في مجموعة واسعة من البيئات، ومع ذلك، تفتقر الأساليب الحالية إلى وسائل موثوقة لقياسها على نطاق واسع.

في العمل الجديد الذي نقدمه، نطرح [نموذج تقييم](/tag/[نموذج](/tag/نموذج)-[تقييم](/tag/تقييم)) مبتكر يمكن من [قياس](/tag/قياس) [استغلال](/tag/استغلال) [المكافآت](/tag/المكافآت) بكفاءة عالية. بدلاً من الأساليب السابقة التي تركزت على [التحليل](/tag/التحليل) اللاحق لمسارات الوكلاء، نقوم بإدراج الفرص القابلة للكشف عن [استغلال](/tag/استغلال) [المكافآت](/tag/المكافآت) مباشرةً في البيئات. وهذا يمكننا من [بناء](/tag/بناء) [تصميم](/tag/تصميم) يُحقق [التحقق](/tag/التحقق) التلقائي من [استغلال](/tag/استغلال) هذه الثغرات، مما يسهل [قياس](/tag/قياس) ما إذا كانت الأنظمة تستغل تلك الفرص وكيفية حدوث ذلك.

قمنا بتطبيق هذا النهج في extit{TextArena}، وأطلقنا extit{Hack-Verifiable TextArena}، وهو [منصة](/tag/منصة) تجريبية تُتيح [قياس](/tag/قياس) [استغلال](/tag/استغلال) [المكافآت](/tag/المكافآت) بصورة موثوقة. من خلال هذه المعايير، نقوم بتحليل [سلوك](/tag/سلوك) [استغلال](/tag/استغلال) [المكافآت](/tag/المكافآت) [عبر](/tag/عبر) [نماذج اللغات](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)) في بيئات وظروف متنوعة.

كل هذا الجهد يمثل خطوة كبيرة [نحو](/tag/نحو) [تحسين الأمان](/tag/[تحسين](/tag/تحسين)-[الأمان](/tag/الأمان)) والثقة في [أنظمة](/tag/أنظمة) الذكاء الاصطناعي، حيث نتطلع إلى فتح الباب لمزيد من [الأبحاث](/tag/الأبحاث) والتطبيقات [العملية](/tag/العملية) في هذا المجال المتقدم. يمكنكم الوصول إلى الشيفرة المصدرية والمزيد من [المعلومات](/tag/المعلومات) [عبر](/tag/عبر) [مستودع GitHub](https://github.com/MajoRoth/hack-verifiable-environments/).