في عالم [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي) المتسارع، تبرز [نماذج [اللغات](/tag/اللغات) الضخمة](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)-الضخمة) (Large Language [Models](/tag/models)) كأدوات رئيسية في [الأبحاث](/tag/الأبحاث) والتطبيقات. ولكن، هل تستطيع هذه الأنظمة الحفاظ على العقود [المراقبة](/tag/المراقبة) أثناء تفاعلها مع [واجهات [برمجة](/tag/برمجة) التطبيقات](/tag/[واجهات](/tag/واجهات)-[برمجة](/tag/برمجة)-[التطبيقات](/tag/التطبيقات)) ([APIs](/tag/apis))؟ هذا هو السؤال الجوهري الذي تتناوله [دراسة جديدة](/tag/[دراسة](/tag/دراسة)-جديدة) باسم ContractBench.
[ابتكر](/tag/ابتكر) الباحثون اختباراً فريداً يضم 33 مهمة مزدوجة المحاور لاستكشاف نوعين من [فشل](/tag/فشل) [الالتزام](/tag/الالتزام) بالعقود: [فشل](/tag/فشل) الصلاحية، والذي يحدث عند استخدام [أداة](/tag/أداة) بعد انتهائها، وفشل السلامة، الذي يحدث عند تلف [البيانات](/tag/البيانات). تم [تصميم](/tag/تصميم) هذا الاختبار باستخدام ساعة افتراضية للتحكم في الزمن وSHA-256 للتحقق من [سلامة البيانات](/tag/[سلامة](/tag/سلامة)-[البيانات](/tag/البيانات)).
على الرغم من أن معظم [النماذج](/tag/النماذج) التي تم اختبارها لم [تحقق](/tag/تحقق) مستوى 80% من الالتزام، فإن [نموذج Claude](/tag/[نموذج](/tag/نموذج)-claude)-Opus-4.6 كان الأفضل بنسبة 77.8%. كما أظهرت النتائج وجود فوارق غير متوقعة في القدرة بين [نماذج](/tag/نماذج) مختلفة، مثل [الأداء](/tag/الأداء) المتذبذب لنموذج [Qwen](/tag/qwen) 3.5.
المفاجأة تكمن في أن تغيير السلوك بعد [التدريب](/tag/التدريب) يمكن أن يؤثر سلباً على [الالتزام](/tag/الالتزام) بالعقود [المراقبة](/tag/المراقبة). وهذا يسلط الضوء على أهمية [فهم](/tag/فهم) كيفية تشغيل [نماذج الذكاء الاصطناعي](/tag/[نماذج](/tag/نماذج)-الذكاء-الاصطناعي) في [سياقات](/tag/سياقات) مختلفة وكيف يمكن تعزيز قدرتها على [الالتزام](/tag/الالتزام) بهذه العقود.
تعد نتائج هذا [البحث](/tag/البحث) بمثابة إنذار مهم للباحثين والمطورين، حيث تبرز ضرورة [تحسين](/tag/تحسين) [نماذج الذكاء الاصطناعي](/tag/[نماذج](/tag/نماذج)-الذكاء-الاصطناعي) لضمان [الالتزام](/tag/الالتزام) بالعقود [المراقبة](/tag/المراقبة) في بيئات الإنتاج.
ما رأيكم في هذه التطورات المثيرة؟ شاركونا في [التعليقات](/tag/التعليقات)!
الذكاء الاصطناعي في اختبار العقد المراقبة: هل يمكن لوكلاء نماذج اللغات الضخمة الالتزام بها؟
تقدم دراسة جديدة حول عملاء نماذج اللغات الضخمة (LLM) رؤية مثيرة حول قدرتها على الالتزام بعقود المراقبة أثناء التفاعل مع واجهات التطبيقات البرمجية. تكشف النتائج عن تحديات كبيرة تواجه هذه الأنظمة في الحفاظ على سلامة البيانات وفاعلية الزمن.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
