في عالم الذكاء الاصطناعي، تكتسب نماذج الرؤية واللغة والعمليات (Vision-Language-Action - VLA) شهرة كبيرة، حيث تبحث عن توازن معقد بين سرعة توليد الأفعال والدراسات المعمقة. ومع ذلك، كانت الأنظمة التقليدية تواجه صعوبة في اتخاذ القرارات بفعالية دون التأخير الكبير أو التكاليف الحاسوبية العالية.

تأتي PearlVLA لتكون بمثابة الحل الثوري، حيث تقوم بنقل عملية التفكير إلى الفضاء الكامن لنموذج الرؤية واللغة (Vision-Language Model - VLM). من خلال فصل تمثيلات الاستعلام الخاصة بـ VLM إلى فرعين رئيسيين: أحدهما مخصص للتركيز البصري الثابت والآخر لفرع الخطة المتكررة، يتسنى للنموذج تحسين خططه بمرور الوقت. في كل جولة من جولات التحسين، يتم استدعاء استعلام يستند إلى خطة لاستكشاف نموذج العالم الكامن الخفيف الوزن، والجديد في PearlVLA هو أنه يقوم بإرجاع معلومات حول المستقبل بدون أفعال، مما يساعد في توجيه عملية تحسين الخطة بشكل أكثر دقة.

بعد اكتمال عدد معين من جولات التحسين، يتم فك تشفير خطة العمل النهائية في أجزاء قابلة للتنفيذ بسرعة ودون تأخير كبير، مما يُمكّن نماذج الرؤية واللغة من تعزيز الكفاءة والأداء.

أيضًا، تم تقديم أسلوب تحسين جديد تحت مسمى "عملية المكافأة المجتمعة للتحسين السببي" (Causal Refinement-Grouped Process-Reward RL) والذي يعزز العملية ويلبي مكافآت من المستقبلات المتوقعة للطويلة المدى.

لقد أثبتت التقييمات التجريبية على معيار LIBERO أن PearlVLA تحقق أداءً طليعياً يتفوق على الطرق الموجودة مما يفتح آفاقًا جديدة في مجال الذكاء الاصطناعي. إذا كان لديك اهتمام بديناميكية هذا الابتكار، فكر في كيف سيفتح PearlVLA المجال لتطبيقات جديدة في الذكاء الاصطناعي وأين يمكن أن يقودنا في المستقبل.