أتمتة الذكاء الاصطناعي: تعرف على معيار AutomationBench الثوري!
أطلق الباحثون معيار AutomationBench الثوري لتقييم قدرات وكلاء الذكاء الاصطناعي في تنسيق العمل عبر التطبيقات. هذا المعيار يتناول التحديات الحقيقية مثل اكتشاف واجهات البرمجة والامتثال للسياسات.
في عالم يتطور بسرعة مع تطورات الذكاء الاصطناعي، ينقصنا معيار فعّال يقيم قدرات هذه التكنولوجيا في مجالات حيوية. لهذا السبب، تم تقديم معيار AutomationBench، الذي يعد نقلة نوعية في كيفية تقييم أداء وكلاء الذكاء الاصطناعي في أتمتة الأعمال عبر التطبيقات المتعددة.
يواجه وكلاء الذكاء الاصطناعي حالياً تحديات متعددة، حيث تتطلب الأعمال الواقعية تنسيقًا عالي المستوى بين أنظمة مختلفة مثل إدارة علاقات العملاء (CRM)، والصناديق الواردة، والتقويم، ومنصات الرسائل. في إطار هذا الإطار، يصبح من الضروري لوكلاء الذكاء الاصطناعي القدرة على اكتشاف نقاط النهاية الصحيحة، واتباع مستندات السياسات بشكل دقيق، وتدوين البيانات بالشكل الصحيح في كل نظام.
يأتي معيار AutomationBench ليملأ هذا الفجوة، حيث يقدم وسيلة لتقييم الأداء القابل للتطوير في تنسيق سير العمل بين التطبيقات بواسطة واجهات برمجة التطبيقات (REST APIs). يستند المعيار إلى أنماط سير العمل الحقيقية من منصة Zapier، حيث تشمل المهام مجالات مثل المبيعات والتسويق والعمليات والدعم والمالية والموارد البشرية.
يتطلب من الوكلاء اكتشاف النقاط المناسبة بأنفسهم، والالتزام بقواعد العمل المتعددة، والتنقل في بيئات مليئة بالسجلات غير ذات الصلة وأحيانًا المضللة. يتم تقييم الأداء من خلال مقاييس برمجية تركز على النتيجة النهائية: هل تم تدوين البيانات الصحيحة في الأنظمة الصحيحة؟ ومع ذلك، يجب الإشارة إلى أن أفضل النماذج الحالية لا تتجاوز درجات أقل من 10% في هذا المعيار.
يقدم معيار AutomationBench مقياسًا واقعيًا وصعبًا حول مدى قدرة النماذج الحالية على تلبية احتياجات الأعمال، مما يمهد الطريق لمزيد من الابتكارات في أتمتة العمليات بواسطة الذكاء الاصطناعي.
يواجه وكلاء الذكاء الاصطناعي حالياً تحديات متعددة، حيث تتطلب الأعمال الواقعية تنسيقًا عالي المستوى بين أنظمة مختلفة مثل إدارة علاقات العملاء (CRM)، والصناديق الواردة، والتقويم، ومنصات الرسائل. في إطار هذا الإطار، يصبح من الضروري لوكلاء الذكاء الاصطناعي القدرة على اكتشاف نقاط النهاية الصحيحة، واتباع مستندات السياسات بشكل دقيق، وتدوين البيانات بالشكل الصحيح في كل نظام.
يأتي معيار AutomationBench ليملأ هذا الفجوة، حيث يقدم وسيلة لتقييم الأداء القابل للتطوير في تنسيق سير العمل بين التطبيقات بواسطة واجهات برمجة التطبيقات (REST APIs). يستند المعيار إلى أنماط سير العمل الحقيقية من منصة Zapier، حيث تشمل المهام مجالات مثل المبيعات والتسويق والعمليات والدعم والمالية والموارد البشرية.
يتطلب من الوكلاء اكتشاف النقاط المناسبة بأنفسهم، والالتزام بقواعد العمل المتعددة، والتنقل في بيئات مليئة بالسجلات غير ذات الصلة وأحيانًا المضللة. يتم تقييم الأداء من خلال مقاييس برمجية تركز على النتيجة النهائية: هل تم تدوين البيانات الصحيحة في الأنظمة الصحيحة؟ ومع ذلك، يجب الإشارة إلى أن أفضل النماذج الحالية لا تتجاوز درجات أقل من 10% في هذا المعيار.
يقدم معيار AutomationBench مقياسًا واقعيًا وصعبًا حول مدى قدرة النماذج الحالية على تلبية احتياجات الأعمال، مما يمهد الطريق لمزيد من الابتكارات في أتمتة العمليات بواسطة الذكاء الاصطناعي.
📰 أخبار ذات صلة
أبحاث
صيادو الذكاء الاصطناعي: كيف تساهم اكتشافات الفلك في أزمة وحدات معالجة الرسوميات العالمية؟
تيك كرانشمنذ 4 ساعة
أبحاث
خفض تكاليف الذكاء الاصطناعي: NVIDIA وGoogle تتعاونان في ابتكارات جديدة
أخبار الذكاء اليوميةمنذ 4 ساعة
أبحاث
جوجل كلاود تبتكر ReasoningBank: إطار ذكي لاستنباط استراتيجيات التفكير من تجارب النجاح والفشل!
مارك تيك بوستمنذ 9 ساعة