تعتبر نماذج DETR (Detection Transformers) من أبرز المنصات المعمارية المستخدمة في كشف الأشياء، حيث توفر مسار توقع شامل وفعال. ولكن تكشف الممارسة العملية عن تحدٍ جسيم: تولد هذه النماذج مئات التوقعات التي تتجاوز بكثير عدد الأشياء الفعلية الموجودة في الصورة. وهذا يثير سؤالًا محوريًا: أي من هذه التوقعات يمكن الاعتماد عليه؟

تتضح أهمية هذا السؤال بشكل خاص في التطبيقات الحساسة مثل المركبات ذاتية القيادة، حيث يمكن أن تؤدي القرارات غير المدروسة إلى عواقب وخيمة. في السياق نفسه، قدّمت الدراسة الجديدة أدلة نظرية وتجريبية تكشف أن التوقعات داخل نفس الصورة تلعب أدواراً مختلفة، مما يؤدي إلى مستويات موثوقية متباينة.

يشير التحليل إلى أن نماذج DETR تتبع استراتيجية متخصصة مثالية: فكل توقع مخصص لكائن يتم تدريبه بشكل جيد بحيث يصبح موثوقًا، بينما يتم تدريب باقي التوقعات على خفض ثقتهم في وجود شيء إلى أدنى حد، مع الحفاظ على دقة الموقع. يظهر هذا النهج كونه الحل الأمثل لتقليل الخسائر في مطابقة هنجارية (Hungarian matching)، مما يشكل بشكل أساسي نواتج نماذج DETR.

ولكن المشكلة تكمن في أن تحديد التوقعات الموثوقة أثناء عملية الاستدلال يكون عسيرًا، مما يعني أن أي خوارزمية معالجة لاحقة يمكن أن تعطي مجموعة من التوقعات بمستويات مختلفة من الموثوقية. لذا، يتطلب النشر العملي تقييمًا مشتركًا لجودة تقويم النموذج وفعالية الخوارزمية اللاحقة.

تظهر الدراسة أن القياسات التقليدية مثل الدقة المتوسطة والأخطاء المتوقعة في التقويم غير كافية لذلك. للتغلب على هذه العقبة، تم تقديم فكرة جديدة هي خطأ التقويم على مستوى الكائن (OCE)، والذي يركز على عقاب كل من الاحتفاظ بالتوقعات المرفوضة وعدم التعرف على الكائنات الحقيقية الموجودة.

أخيرًا، تم تقديم إطار عمل لتقدير عدم اليقين بعد الحدث، والذي يتنبأ بدقة النموذج لكل صورة على حدة. هذا الابتكار يعد خطوة هامة نحو تحقيق تطبيقات آمنة وموثوقة في عالم الذكاء الاصطناعي.