في عالم الذكاء الاصطناعي المتسارع، تبرز نماذج اللغات الضخمة (Large Language Models) كأدوات رئيسية في الأبحاث والتطبيقات. ولكن، هل تستطيع هذه الأنظمة الحفاظ على العقود المراقبة أثناء تفاعلها مع واجهات برمجة التطبيقات (APIs)؟ هذا هو السؤال الجوهري الذي تتناوله دراسة جديدة باسم ContractBench.
ابتكر الباحثون اختباراً فريداً يضم 33 مهمة مزدوجة المحاور لاستكشاف نوعين من فشل الالتزام بالعقود: فشل الصلاحية، والذي يحدث عند استخدام أداة بعد انتهائها، وفشل السلامة، الذي يحدث عند تلف البيانات. تم تصميم هذا الاختبار باستخدام ساعة افتراضية للتحكم في الزمن وSHA-256 للتحقق من سلامة البيانات.
على الرغم من أن معظم النماذج التي تم اختبارها لم تحقق مستوى 80% من الالتزام، فإن نموذج Claude-Opus-4.6 كان الأفضل بنسبة 77.8%. كما أظهرت النتائج وجود فوارق غير متوقعة في القدرة بين نماذج مختلفة، مثل الأداء المتذبذب لنموذج Qwen 3.5.
المفاجأة تكمن في أن تغيير السلوك بعد التدريب يمكن أن يؤثر سلباً على الالتزام بالعقود المراقبة. وهذا يسلط الضوء على أهمية فهم كيفية تشغيل نماذج الذكاء الاصطناعي في سياقات مختلفة وكيف يمكن تعزيز قدرتها على الالتزام بهذه العقود.
تعد نتائج هذا البحث بمثابة إنذار مهم للباحثين والمطورين، حيث تبرز ضرورة تحسين نماذج الذكاء الاصطناعي لضمان الالتزام بالعقود المراقبة في بيئات الإنتاج.
ما رأيكم في هذه التطورات المثيرة؟ شاركونا في التعليقات!
الذكاء الاصطناعي في اختبار العقد المراقبة: هل يمكن لوكلاء نماذج اللغات الضخمة الالتزام بها؟
تقدم دراسة جديدة حول عملاء نماذج اللغات الضخمة (LLM) رؤية مثيرة حول قدرتها على الالتزام بعقود المراقبة أثناء التفاعل مع واجهات التطبيقات البرمجية. تكشف النتائج عن تحديات كبيرة تواجه هذه الأنظمة في الحفاظ على سلامة البيانات وفاعلية الزمن.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
