تعتبر معالجة الأشياء المتحركة من التحديات الفريدة التي تواجه الروبوتات الخدمية في عصرنا الحديث. تكمن المشكلة في أن الأساليب الحالية غالبًا ما تركز على التعلم الشامل للسياسات (end-to-end policy learning) والتخطيط لأنها تعتمد على تقنيات التعلم العميق ونماذج اللغات الكبيرة (Large Language Models) والنماذج المرئية. ومع ذلك، فإن هذه الطرق تعتمد على مجموعة محدودة من الأجسام المعقدة وتفاعل الأدوات، مما يؤدي إلى وقوع حوادث وتداخلات غير مرغوب فيها.

لحل هذه المشكلة، تم تقديم GSAM كإطار عمل عام وآمن لمعالجة الأشياء المتحركة، حيث يعكس الابتكار في هذا الإطار قدرة الروبوتات على التعلم والتكيف. يعتمد GSAM على مُحسس قائم على الرؤية لتوليد المعلمات الحركية، ومع ذلك، نظرًا لأن الأنظمة المدربة مسبقًا قد تنتج تقديرات غير دقيقة، فقد تم تقديم مُحسِّن قائم على نموذج اللغة المرئية. يعتمد هذا المُحسِّن على أسلوب التفكير المتسلسل (Chain-of-Thought) لضمان دقة التقديرات.

كما تم تصميم مولد خاصة لوظائف قيود التفاعل، مما يجمع بين الأشياء المتحركة، أوضاع التفاعل، ومعرفة تجنب العقبات لضمان حدوث تفاعلات آمنة. بعد ذلك، يتم تحويل هذه القيود إلى خطط للطرق والوضعيات باستخدام نموذج اللغة الكبير. يقوم مخطط الحركية (kinematic-aware manipulation planner) بالتحقق من إمكانية الوصول والتناسق للطرق المقترحة.

أظهرت التجارب التي أجريت على 50 مهمة قابلة للطي عبر 5 فئات من الأجسام أن GSAM يمكن أن يقلل من الانحراف المعياري بنسبة 3.1% ويزيد من معدل نجاح المعالجة بنسبة 36% مقارنة بأفضل الحلول البديلة. هذه النتائج تبرز تفوق GSAM في توسيع نطاق التعميم والتفاعل في التطبيقات العملية.