في عالم الذكاء الاصطناعي، يُعتبر تمكين النماذج اللغوية الضخمة (Large Language Models) من تنفيذ خطوات عمل متعددة بشكل موثوق تحديًا مركزيًا. على الرغم من التقدم الملحوظ الذي حققته هذه النماذج، إلا أن معظم أنظمة الوكلاء تفتقر إلى الأساليب الرسمية لتحديد والتحقق وتصحيح مسارات العمل الخاصة بها.
تمثل هذه المشكلة تحديًا قديمًا في علم الرياضيات، حيث أدى الغموض في اللغات الطبيعية (Natural Languages) إلى تطوير لغات رسمية (Formal Languages). مستلهمين من هذه الفكرة، نقدم **Lean4Agent**، أول إطار عمل على حد علمنا يستخدم Lean4، وهي لغة نوعية معتمدة لنمذجة والتحقق من سلوك الوكلاء.
يظهر **Lean4Agent** مكتبة **FormalAgentLib**، التي تتيح نمذجة والتحقق الرسمية من اتساق خطوات عمل الوكلاء تحت افتراضات محددة، مما يمكّن من تحديد مواضع الفشل الزمنية المستدامة. بناءً على **FormalAgentLib**، قمنا أيضًا بتطوير **LeanEvolve**، التي تطبق النتائج الناتجة عن **FormalAgentLib** لتعديل خطوات العمل وتعزيز قدراتها.
أظهرت التجارب المكثفة على مجموعة صعبة من الأخطاء في SWE-Bench-Verified ومجموعة من ELAIP-Bench عبر 5 نماذج لغوية رائدة أن خطوات العمل التي تمر بالتحقق تتفوق على تلك التي تفشل بمتوسط **11.94%**، بينما يُحسن **LeanEvolve** أداء SWE بمعدل **7.47%**.
باختصار، يمثل **Lean4Agent** أساسًا لمجال جديد يستخدم اللغات الرسمية ذات النوعيات المتقدمة لنمذجة والتحقق من سلوك الوكلاء بشكل رسمي وفعال. ما رأيكم في هذا التطور الرائد؟ شاركونا في التعليقات.
ثورة Lean4Agent: نموذج رسمي لتحسين سلوك الوكلاء في الذكاء الاصطناعي
يقدم Lean4Agent إطارًا ثوريًا لاستخدام اللغات الرسمية لتحسين جودة سلوك الوكلاء في الذكاء الاصطناعي. تعزز هذه الأداة الجديدة خطوات العمل متعددة المراحل وتضمن موثوقية الأداء.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
