في عصر تكنولوجيا الذكاء الاصطناعي المتقدمة، تتجه الأنظار نحو نماذج اللغة الكبيرة (Large Language Models) لتكون وكلاء مستقلين تنفذ مهام متعددة الخطوات في بيئات قابلة للتنفيذ. ومع ذلك، تبقى قدرتها على معالجة أبحاث العمليات (Operations Research) مثار تساؤل.
وفي إطار هذا التساؤل، تم تقديم البرمجية الجديدة ORAgentBench والتي تعد بمثابة معيار لتقييم الوكلاء المستقلين على مهام أبحاث العمليات المعقدة. تحتوي هذه البرمجية على 107 مهمة تمت مراجعتها بواسطة البشر، تغطي سيناريوهات عملية متنوعة، ويأتي كل منها مزودًا ببيانات متعددة الملفات ومخططات تقديم مطلوبة.
يتعين على الوكلاء كتابة وتنفيذ كود الحلول الخاصة بهم، وتقييمها من قبل مقيمين خفيين لفحص صلاحية المخططات والجدوى وضمان الجودة المعيارية. أظهرت التجارب مع أربعة عشر تكوينًا متقدماً للوكلاء أن الأداء لا يزال بعيدًا عن التطبيق العملي الموثوق في أبحاث العمليات، حيث أن أفضل وكيل حقق فقط 35.51% من المهام الكاملة و20.59% من المهام الصعبة.
كما أظهرت تحليلات الفشل أن الأخطاء غالبًا ما تكون ناتجة عن ضعف استراتيجي، مثل فقدان القواعد التشغيلية، وصياغات هشة، وبناء حلول قابلة للتنفيذ بشكل ضعيف، فضلاً عن تحسين الحلول غير الكافي. على الرغم من أن المهارات الإجرائية المتعلقة بأبحاث العمليات يمكن أن تزيد من الجدوى في المهام الصعبة، إلا أنها لا تعزز بشكل موثوق جودة الحلول أو نسبة النجاح.
تشير هذه النتائج إلى أن التقدم في وكالات أبحاث العمليات يحتاج إلى الانتقال من رمز تحسين يبدو معقولاً نحو اتخاذ قرارات تشغيلية موثوقة وعالية الجودة.
ORAgentBench: هل يمكن لوكلاء نماذج اللغة الكبيرة حل تحديات أبحاث العمليات بنجاح؟
يستعرض ORAgentBench قدرة نماذج اللغة الكبيرة بوصفها وكلاء مستقلين على معالجة مهام أبحاث العمليات المعقدة. النتائج تشير إلى أن التقدم نحو اتخاذ قرارات تشغيلية موثوقة يحتاج إلى تحسينات جذرية في الاستراتيجيات المستخدمة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
