تعتبر إدارة الحوادث الفعالة في أنظمة تكنولوجيا المعلومات الكبيرة من التحديات الكبيرة التي تواجه الفرق التقنية، حيث تعتمد في كثير من الأحيان على أدلة استكشاف الأعطال (Troubleshooting Guides - TSGs) التي تتسم بالتعقيد. ولأن تنفيذ هذه الأدلة يستهلك وقتًا طويلًا ويحتوي على نسبة خطأ مرتفعة، برزت الحاجة إلى حلول مبتكرة. وهنا يأتي دور StepFly، الإطار الجديد الذي تم تقديمه مؤخراً ويقدم حلولاً فعالة لأتمتة هذه العملية.

استندت الدراسة على تحليل 92 دليل استكشاف أعطال حقيقي، مما قاد إلى تطوير StepFly كحل شامل من ثلاث مراحل. في المرحلة الأولى، يتم تقديم دليل شامل مع أداة مساعدة، TSG Mentor، تدعم مهندسي موثوقية الموقع (Site Reliability Engineers - SREs) في تحسين جودة الأدلة. المرحلة الثانية تتضمن معالجة البيانات باستخدام نماذج اللغات الضخمة (Large Language Models - LLMs) لاستخراج الرسوم البيانية الموجهة (Directed Acyclic Graphs - DAGs) من الأدلة غير المنظمة، مما يسهل تنظيم العمليات. أما المرحلة الثالثة، فتقوم بتنفيذ الإجراءات عبر إطار عمل جدولة وتنفيذ موجه بواسطة الرسوم البيانية، مع نظام ذاكرة لضمان سير العمل بشكل صحيح، مما يدعم الأداء المتزامن للخطوات المستقلة.

أظهرت التقييمات التجريبية أن StepFly حققت معدل نجاح يقارب 94% حين استخدم GPT-4.1، متفوقة بشكل ملحوظ على الحلول التقليدية في الوقت ونسبة استخدام الرموز. كما أفادت النتائج بتقليل مذهل في وقت التنفيذ، يتراوح بين 32.9% إلى 70.4% للأدلة القابلة للتنفيذ بالتوازي. للتعرف على المزيد، يمكنكم زيارة [رابط المشروع على GitHub](https://github.com/microsoft/StepFly).