في السنوات الأخيرة، أصبح من الواضح أن نماذج اللغة الكبيرة (Large Language Models - LLMs) والوكالات المستقلة تعتمد فلسفة تطوير برمجيات جديدة، حيث يتمحور التركيز حول التعبير عن النوايا والأهداف بدلاً من كتابة إجراءات دقيقة. هذا التغيير الجذري يقدم تحديات جديدة في كيفية إرشاد الاختبارات، حيث تصبح الطلبات (Prompts) هي العناصر الأولى في تطوير البرمجيات.
لتلبية هذه الحاجة، تم اقتراح معيار تغطية الطلبات (Prompt Coverage Adequacy)، وهو معيار جديد يهدف لدعم اختبار الأكواد المستخرجة من أوصاف المهام. يعمل هذا المعيار كتقليد لمعيار تغطية الأكواد التقليدية، ولكنه يركز على مستوى الطلبات المستخدمة في برمجة نماذج اللغة والبرامج المدعومة بالوكالات.
يقيس معيار تغطية الطلبات مدى فهم وتحقيق مجموعة الاختبارات لاحتياجات معينة معبّر عنها في الطلب. ولتحقيق ذلك، يتم استخدام آليات الانتباه الخاصة بنماذج اللغة الكبيرة.
تم تقييم تنفيذ بسيط لهذا المعيار، مبني على تحسين الانتباه، عبر مجموعتي بيانات وعدد من نماذج اللغة الكبيرة. أثبتت النتائج أن معيار تغطية الطلبات مرتبط بفعالية اكتشاف الأخطاء ويمكن أن يكشف عن أكثر من 30% من الأخطاء الإضافية مقارنة بتغطية الأكواد التقليدية عند استخدامه في توجيه توليد الاختبارات.
تشير هذه النتائج إلى أن معيار تغطية الطلبات يمكن أن يكون أساسًا لتطوير مقاييس اختبار تكون أفضل ملاءمة في سياق تطوير البرمجيات المدعومة بنماذج اللغة الكبيرة، مما يتجاوز القيود المفروضة على المعايير التقليدية في هذا السياق المتغير.
ابتكار جديد في تطوير البرمجيات: معيار تغطية الطلبات (Prompt Coverage) يعيد تعريف الاختبار!
تمثل معيار تغطية الطلبات (Prompt Coverage Adequacy) تحولًا جذريًا في اختبار البرمجيات، حيث ينتقل التركيز من كتابة الأكواد إلى فهم النوايا والأهداف. هذا المعيار الجديد يعدّ خطوة مهمة نحو تحسين فعالية اكتشاف الأخطاء في البرمجيات المعتمدة على نماذج اللغة الكبيرة (LLMs).
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
