في عالم الذكاء الاصطناعي والتعلم المعزز، تعتبر الحلول المدعومة بالشبكات العصبية (Neural Solvers) رائدة في تقديم نماذج متقدمة تتعامل مع الزمن المستمر. تعتمد هذه الحلول على معادلات هاملتون-جاكوب-بيلمان (Hamilton-Jacobi-Bellman HJB) لتوليد تغذية راجعة مثالية، ما يجعلها محورية في تطوير التقنيات الحديثة.

لكن ماذا عن المشاكل الحقيقية وكيف يتفاعل هذا النظام مع البيانات؟ غالباً ما نجد أن التطبيقات العملية لا تساير الطرق التقليدية ولا الطرق المعتمدة على شبكات النماذج (Continuous-PDE PINNs). في هذه الدراسة، نعتمد على تحسين دوال القيمة (Value Functions) باستخدام الشبكات العصبية، حيث يتم تقييم عمليات تقييم السياسات (Policy Evaluation) من خلال استفسارات الشبكة عند نقاط محددة والتي تعتبر أساساً للحد من الأخطاء.

لكن ما يميز هذه الطريقة هو أنه رغم احتفاظها بهياكل السياسات المستقرة، إلا أنها تتجنب تعقيدات القيم غير المعروفة المرتبطة بالشبكات التقليدية. ومن خلال تطوير نظرية الأخطاء لهذه المنظومة، تمكنا من تقديم تقدير استقراري في الفئة السكانية $L^2$ لخطوة تقييم السياسات، مع تحديد الأخطاء الأولى والثانوية والاختلافات في السياسات.

لدعم نتائجنا، أجرينا تجارب على نطاقات متعددة، مثل التحكم المحكم (LQR) حتى 64 بعداً، ودرسنا أنظمة متباينة مثل التحكم في كون ألِن-كان (Allen-Cahn)، والأنظمة الديناميكية المركبة مثل البندول (Pendulum) وطيار الرباعيات الثلاثي الأبعاد. مما أظهر لنا كيف يمكن لهذه التحليلات أن توضح التوجهات المتوقعة للأخطاء في النماذج المتعلمة، مما يفتح آفاقاً جديدة في البحث والتطبيق.

في الختام، يظهر هذا البحث كيف يمكن تكييف تقنيات التعلم المعزز لتشمل مزيداً من الدقة والتحكم في الأخطاء، مما يجعلها خطوة واعدة نحو تحقيق أهداف أكثر تطوراً في مجال الذكاء الاصطناعي.