في عالم يتسارع فيه اعتماد الذكاء الاصطناعي (AI) في مختلف المجالات، تبرز أهمية تقييم أداء نماذج اللغة الكبيرة (LLMs) بشكل خاص في القطاعات التي تتطلب دقة عالية، مثل قطاع الطيران. بينما يُستخدم الذكاء الاصطناعي بشكل متزايد في العمليات التجارية للطيران مثل توثيق البيانات وتدريب العاملين، يفتقر معظم المعايير الحالية إلى القدرة على قياس مدى أمان ودقة هذه النماذج في التعامل مع المعرفة التشغيلية الخاصة بالطيران، الأمر الذي يمثل تحدياً كبيراً في مجال يرتبط بأعلى درجات الأمان والتشريعات.
لذلك، تم إطلاق المعيار الجديد المعروف باسم 'اختبار الطيران'، والذي يتضمن 300 سؤال اختياري متنوع مستمد من معايير دولية ومواد تخص العمليات الأرضية في المطارات. هذه الأسئلة تم وضعها ومراجعتها من قبل محترفين ذوي خبرة في إدارة حركة الطيران والعمليات الأرضية والطيران التجاري، لضمان دقتها وملاءمتها لتحديات عالم الطيران المعقد.
وفقاً لتقييمات تمت باستخدام إطار تقييم 'Inspect'، تُظهر النتائج أن أفضل نموذج تم اختباره، والذي من المتوقع أن يُطلق في عام 2026، لم يحقق سوى 82.7% من الدقة المطلوبة، وهي نتيجة لا تزال بعيدة عن مستوى الخبراء الذي يُقدر بـ 95%. تستمر الفجوة في الكفاءة تحت مستوى الموثوقية المهنية، مما يبرز الحاجة لتقييمات دقيقة مثل 'اختبار الطيران' قبل اعتماد الذكاء الاصطناعي في العمليات الجوية غير الحرجة.
أطلقت مجموعة بيانات ونتائج 'اختبار الطيران'، وهي متاحة لأعضاء المجتمع ضمن حزمة التقييمات الموزعة مع أدوات التقييم. يهدف هذا المعيار إلى التأكيد على أهمية تقييمات محددة لهذا النوع كشرط مسبق لنشر الذكاء الاصطناعي بطريقة مسؤولة في ساحة الطيران.
اختبار الطيران: معيار ثوري لتقييم نماذج الذكاء الاصطناعي في قطاع الطيران
تم تقديم معيار 'اختبار الطيران' كأداة فريدة لتقييم نماذج اللغة الكبيرة (LLMs) في مجال العمليات الجوية، حيث يسلط الضوء على الفجوات الموجودة في قدرات هذه النماذج. هذه المبادرة ستحدث ثورة في اعتماد الذكاء الاصطناعي في عمليات الطيران.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
