في عالم الذكاء الاصطناعي، تمثل نماذج الأفعال الكامنة (Latent Action Models - LAMs) طفرة جديدة، حيث تسعى لتعلم نماذج حركية من خلال تحليل الانتقالات المرئية. لكن ماذا يحدث عندما نكون في مشاهد غنية بالاجسام المتعددة أو المشتتات؟ هنا تبرز التحديات.
تتداخل تأثيرات الحركة مع المشتتات، ديناميكيات الكاميرا، وتغيرات الخلفية، مما يخلق غموضًا في مصدر الحركة.
للتغلب على ذلك، فقد تم تنظيم هذا المزيج على هيئة تأثيرات انتقالية قابلة لإعادة الاستخدام، وهو ما يسهل تكوين نماذج أفعال أكثر قوة. تُعرف هذه الطريقة الجديدة باسم تحليل الانتقال الملحوظ (Observed Transition Factorization - OTF)، والتي تتفكك كل انتقال إلى مجموعة استراتيجية من العناصر الانتقالية الملحوظة.
باستخدام هذه العناصر كواجهة انتقال، تم اقتراح نموذج OTF-LAM، الذي يقوم بتجريد العناصر الحركية إلى أفعال كامنة في إطار الديناميات العكسية القياسية. كما تم تقديم نسخة خالية من المحولات تُدعى OTF-LAM-Dino، والتي تتنبأ بالحالات المستقبلية في مساحة تمثيل DINOv2 المجمدة.
تظهر التجارب العملية أن العناصر المتحولة (OTF primitives) تتمتع بإمكانية نقل فعالة، حيث تنتقل بين أنظمة السيطرة المختلفة وتغيرات المورفولوجيا دون الحاجة لتكرار التدريب.
علاوة على ذلك، أظهرت نتائج تعلم السياسات تحت الظروف الانتقالية المعقدة تطابقاً أو تفوقاً على المعايير المستخدمة سابقاً، مما يفتح آفاق جديدة لفهم الذكاء الاصطناعي للبيئات المعقدة.
النماذج الكامنة للأفعال: كيف تغير فكرتنا عن الحركة والذكاء الاصطناعي؟
تقدم الأبحاث الجديدة نموذجاً ثورياً في الذكاء الاصطناعي يتيح تعلم الأفعال الكامنة من خلال تأثيرات انتقالية محسوبة بدقة. هل يمكن أن يحدث هذا نقلة نوعية في فهم الآلات لحركتنا؟
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
