تقدم هذه الدراسة الجديدة تعديلاً مبتكرًا في مجال الذكاء الاصطناعي، حيث يتم استخدام التعلم المعزز العميق (Deep Reinforcement Learning) لتطوير سياسة تحكم للمراقب تتمكن من تتبع الأهداف المتحركة فقط باستخدام بيانات الزاوية (Bearings-Only Tracking). يُعد هذا الإنجاز خطوة هامة في مجال الأتمتة والتحكم الذاتي.

تم صياغة مشكلة مناورة المراقب كعملية قرار ماركوف البيانية (Markov Decision Process)، حيث يمثل حالة الاعتقاد بالتوزيع البعدي لمصفاة كاليمن (Cubature Kalman Filter). تم تصميم دالة المكافأة لتعالج هدفين متضادين: تقليل خطأ تقدير موقع الهدف (المسافة الإقليدية) والحفاظ على اتساق تقدير مصفاة كاليمن (Mahalanobis Distance).

تمت صياغة المكافأة كتهجين هندسي بين الهدفين المتعارضين على جبهة باريتو، وتم تعريفها بواسطة عامل وزن يتراوح بين 0 و1. وقد تم تنفيذ هذه السياسة كشبكة Q عميقة (Deep Q-Network) تم تدريبها على مدار 50,000 جولة.

تم تقييم الأداء عبر 5,000 جولة من طريقة مونت كارلو ومقارنتها مع معيارين مرجعيين: استراتيجية العمود القائم على الزاوية ومعيار تعظيم معلومات فيشر (Fisher Information). أظهرت النتائج أن سياسة الشبكة العميقة عند β = 0.7 تحقق أفضل توازن بين الدقة والمتانة، حيث تتطابق مع المعيار المعلوماتي في دقة التتبع المتوسطة، بينما تقلل من أسوأ حالة للخطأ بحوالي عشرة أضعاف بفضل التنظيم الضمني الذي توفره دالة المكافأة.

بفضل هذه الابتكارات، يُظهر هذا البحث كيف يمكن أن تكون تقنيات الذكاء الاصطناعي أداة قوية في تحقيق الكفاءة والدقة في تتبع الأهداف، مما يعزز من قدرات الأنظمة الذاتية في المستقبل.