في عالم التكنولوجيا الحديثة، حيث تتسارع وتيرة الابتكار، تبرز الحاجة إلى ضمان موثوقية تطبيقات الخدمات الدقيقة (Microservice Applications) بوضوح أكثر من أي وقت مضى. تعتمد هذه التطبيقات بشكل كبير على واجهات برمجة التطبيقات (APIs) التي قد تحتوي على مشكلات مثل الأخطاء النمطية، المدخلات المفقودة، أو مدخلات القيم الحدية، مما قد يتسبب في تأثيرات متسلسلة عبر الخدمات المعتمدة، وبالتالي تهديد الاستقرار.

تأتي الدراسة الجديدة لتسلط الضوء على أهميتها من خلال اختبار متانة التطبيقات باستخدام نماذج اللغة الكبيرة (LLMs). حيث كشفت النتائج أن اختبار المتانة يمكن أن يكشف عن الأعطال في جانب الخادم من خلال استراتيجيات مدروسة لاختبار المدخلات المتنوعة.

التحقيق شمل تطبيق سبع استراتيجيات استجوابية على ثلاث نماذج مفتوحة المصدر من نماذج اللغة الكبيرة تتفاوت أحجامها بين 14 مليار و70 مليار معلمة، مع التركيز على نظامين معماريين مختلفين. أظهرت النتائج أن استراتيجيات الاستجواب (Prompt Strategies) تؤثر بشكل كبير على تنوع مخرجات الاختبار أكثر من حجم النموذج نفسه. حيث تمكن نموذج واحد تحت استراتيجيات استجواب مختلفة من تحقيق تغطية كاملة لأوضاع الفشل في أحد الأنظمة، متفوقاً على أي تجميع متعدد النماذج.

تُقدم البحث أيضًا استراتيجيتين جديدتين تحت مسمى Guided وGuidedFewShot، اللتين تمزجان بين تصنيفات التحولات من أبحاث اختبار المتانة السابقة، مما يعزز من السياق الدائم. وتجاوزت نتائج GuidedFewShot المعايير، مع تحقيق أعلى تغطية في حالات الفشل خلال اختبارات نموذجية.

تُظهر نتائج الدراسة، المتكررة عبر النظامين، أن الاعتماد على قواعد التصنيف وحدها غير كافٍ، حيث لا تستطيع نماذج اللغة الكبيرة التمييز بين التحولات الناقصة والقيم الفارغة بدون أمثلة ملموسة.

فهل تبحث عن تعزيز موثوقية تطبيقات خدماتك الدقيقة؟ قد تكون نماذج اللغة الكبيرة هي الحل المثالي لتحقيق ذلك.