في عالم الذكاء الاصطناعي، تعتبر الأنظمة التي تعتمد على سياسات الإجراء التوليدية فعالة بشكل خاص في تقنيات تقليد السلوك (Behavior Cloning). ومع ذلك، فإن عملية أخذ العينات التكرارية للتصرفات يمكن أن تكون مرهقة عند التحكم في الروبوتات ذات التردد العالي. في هذا السياق، تطورت سياسة الانجراف الضمني (IDP) كموديل مبتكر يمكنه تجاوز هذه العقبات من خلال توفير إطار جديد للتعلم الآلي.

تُعالج سياسة IDP عملية تعلم الإيماءات الفورية دون الحاجة لتقدير حقل متجه صريح، مما يجعلها أكثر كفاءة. يستند هذا النموذج إلى استخراج هندسة خبراء شرطية من التباين المحلي لإجراءات الخبراء المشابهة للمراقبة. من خلال مقارنة هذه الهندسة الشرطية بهندسة مرجعية عالمية، يتم عزل القيود الخاصة بالظروف المحددة.

يعتمد النموذج على هيكل هندسي محلي الذي يقوم بتكييف الأهداف لتقدم التعلم بشكل فعال. بالإضافة إلى ذلك، يتم استخدام تقييم نهائي قريب من الخبراء، مما يضمن أن النموذج يتبع بشكل صارم القيود manifold أثناء عملية التدريب.

أظهرت تقييمات شاملة عبر مهام التحكم في بيئات ثنائية وثلاثية الأبعاد، فضلاً عن مهام المعالجة في العالم الحقيقي، أن سياسة IDP تحافظ بفاعلية على الالتزام بالمنحنيات الصحيحة للإجراءات، مما يعزز أدائها ويحقق نتائج تنافسية متميزة مقارنة بالطرق التقليدية المطبقة.