الذكاء الاصطناعي في اختبار العقد المراقبة: هل يمكن لوكلاء نماذج اللغات الضخمة الالتزام بها؟

Q: ما هو موضوع مقال "الذكاء الاصطناعي في اختبار العقد المراقبة: هل يمكن لوكلاء نماذج اللغات الضخمة الالتزام بها؟"؟

يتناول المقال بالتفصيل والتحليل آخر الأخبار والتطورات المتعلقة بـ "الذكاء الاصطناعي في اختبار العقد المراقبة: هل يمكن لوكلاء نماذج اللغات الضخمة الالتزام بها؟" في عالم الذكاء الاصطناعي والتكنولوجيا الناشئة.

في عالم الذكاء الاصطناعي المتسارع، تبرز نماذج اللغات الضخمة (Large Language Models) كأدوات رئيسية في الأبحاث والتطبيقات. ولكن، هل تستطيع هذه الأنظمة الحفاظ على العقود المراقبة أثناء تفاعلها مع واجهات برمجة التطبيقات (APIs)؟ هذا هو السؤال الجوهري الذي تتناوله دراسة جديدة باسم ContractBench.

ابتكر الباحثون اختباراً فريداً يضم 33 مهمة مزدوجة المحاور لاستكشاف نوعين من فشل الالتزام بالعقود: فشل الصلاحية، والذي يحدث عند استخدام أداة بعد انتهائها، وفشل السلامة، الذي يحدث عند تلف البيانات. تم تصميم هذا الاختبار باستخدام ساعة افتراضية للتحكم في الزمن وSHA-256 للتحقق من سلامة البيانات.

على الرغم من أن معظم النماذج التي تم اختبارها لم تحقق مستوى 80% من الالتزام، فإن نموذج Claude-Opus-4.6 كان الأفضل بنسبة 77.8%. كما أظهرت النتائج وجود فوارق غير متوقعة في القدرة بين نماذج مختلفة، مثل الأداء المتذبذب لنموذج Qwen 3.5.

المفاجأة تكمن في أن تغيير السلوك بعد التدريب يمكن أن يؤثر سلباً على الالتزام بالعقود المراقبة. وهذا يسلط الضوء على أهمية فهم كيفية تشغيل نماذج الذكاء الاصطناعي في سياقات مختلفة وكيف يمكن تعزيز قدرتها على الالتزام بهذه العقود.

تعد نتائج هذا البحث بمثابة إنذار مهم للباحثين والمطورين، حيث تبرز ضرورة تحسين نماذج الذكاء الاصطناعي لضمان الالتزام بالعقود المراقبة في بيئات الإنتاج.

ما رأيكم في هذه التطورات المثيرة؟ شاركونا في التعليقات!

الذكاء الاصطناعي في اختبار العقد المراقبة: هل يمكن لوكلاء نماذج اللغات الضخمة الالتزام بها؟

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

من نماذج اللغات الضخمة إلى الهلوسات: دليلك الشامل لأهم مصطلحات الذكاء الاصطناعي!

ثورة جديدة في الذكاء الاصطناعي: Salesforce تطلق Slackbot المتطور لمنافسة Microsoft وGoogle في عالم الأعمال

ثورة جديدة في عالم البرمجة: شركة Gitar الناشئة تؤمن الكود باستخدام الذكاء الاصطناعي!