ثورة الذكاء الاصطناعي: أتمتة إعداد مخططات الحوادث باستخدام نماذج الرؤية واللغة!
في خطوة جديدة نحو تحسين سلامة النقل، يتم استخدام نماذج الرؤية واللغة (Vision-Language Models) لأتمتة إعداد مخططات الحوادث بدلاً من الطرق اليدوية التقليدية. تكشف الدراسة عن الأداء المتميّز لنموذج GPT-4o في هذا المجال.
في عالم يتطور باستمرار نحو الابتكار التكنولوجي، تبين هذه الدراسة الرائدة كيف يمكن للذكاء الاصطناعي أن يُحدث ثورة في مجال تحليل سلامة النقل. تُعتبر مخططات الحوادث أدوات أساسية في تحليل السلامة المرورية، لكن إعدادها يدويًا يستغرق وقتًا طويلاً ويعتمد بشكل كبير على التجربة البشرية، مما قد يؤدي إلى تقلبات في الجودة والدقة.
لذا، قامت هذه الدراسة بدراسة كيفية استخدام نماذج الرؤية واللغة (Vision-Language Models) لأتمتة هذه العملية. تم التركيز بشكل خاص على الدوارات متعددة الممرات كحالة اختبار صعبة.
اعتمد الباحثون على إطار عمل مكون من ثلاثة أجزاء، والذي يوجه النموذج عبر مراحل الفهم، والاستخراج، والتركيب البصري. كما تم تصميم نظام تقييم مكون من عشرة معايير لقياس جودة المخططات من حيث الدقة الدلالية، والوفاء المكاني، والوضوح البصري.
قد تم اختبار ثلاثة نماذج مشهورة، بما في ذلك GPT-4o وGemini-1.5-Flash وJanus-4o على 79 تقريرًا عن الحوادث. وكانت النتائج مثيرة للاهتمام! حقق نموذج GPT-4o أعلى أداء بمتوسط قدره 6.29 من 10، يليه Gemini-1.5-Flash بمتوسط 5.28 وJanus-4o الذي سجل 3.64 فقط.
الكشف عن تفوق GPT-4o في التفكير المكاني والتوافق بين البيانات المستخرجة والمرئية يعكس الإمكانيات الهائلة لنماذج الرؤية واللغة في تحسين مهام التصور الهندسي. هذه النتائج تؤكد على وعود واستخدامات الذكاء الاصطناعي الجيل الجديد في عمليات تحليل الحوادث، مما يسهم في تحسين الكفاءة، والاتساق، وسهولة التفسير.
لذا، قامت هذه الدراسة بدراسة كيفية استخدام نماذج الرؤية واللغة (Vision-Language Models) لأتمتة هذه العملية. تم التركيز بشكل خاص على الدوارات متعددة الممرات كحالة اختبار صعبة.
اعتمد الباحثون على إطار عمل مكون من ثلاثة أجزاء، والذي يوجه النموذج عبر مراحل الفهم، والاستخراج، والتركيب البصري. كما تم تصميم نظام تقييم مكون من عشرة معايير لقياس جودة المخططات من حيث الدقة الدلالية، والوفاء المكاني، والوضوح البصري.
قد تم اختبار ثلاثة نماذج مشهورة، بما في ذلك GPT-4o وGemini-1.5-Flash وJanus-4o على 79 تقريرًا عن الحوادث. وكانت النتائج مثيرة للاهتمام! حقق نموذج GPT-4o أعلى أداء بمتوسط قدره 6.29 من 10، يليه Gemini-1.5-Flash بمتوسط 5.28 وJanus-4o الذي سجل 3.64 فقط.
الكشف عن تفوق GPT-4o في التفكير المكاني والتوافق بين البيانات المستخرجة والمرئية يعكس الإمكانيات الهائلة لنماذج الرؤية واللغة في تحسين مهام التصور الهندسي. هذه النتائج تؤكد على وعود واستخدامات الذكاء الاصطناعي الجيل الجديد في عمليات تحليل الحوادث، مما يسهم في تحسين الكفاءة، والاتساق، وسهولة التفسير.
