تعتبر نماذج الرؤية-اللغة (Vision-Language Models) ونماذج الرؤية-اللغة للعمل (Vision-Language Action Models) من أبرز التطورات التي تعزز قدرات الروبوتات بشكل غير مسبوق. ومع ذلك، فإن معالجة الفيديوهات والصور عالية الدقة تؤدي إلى إنتاج عدد هائل من الرموز البصرية، مما يسفر عن فترة استجابة مرتفعة قد تعيق التحكم الفوري للروبوتات.
للتغلب على هذه العقبة، تم تقديم نظام ST-Merge، وهو إطار عمل يُعتبر سهل الاستخدام ولا يتطلب تدريبًا؛ حيث يدمج الرموز الزائدة بشكلٍ فعال أثناء مرحلة ترميز الصورة. يعتمد ST-Merge على بناء إحداثيات ثلاثية الأبعاد (3D) زمنية ومكانية، ويستخدم آلية المطابقة المتوازية متعددة الصفوف للتجميع الموزون، مما يحقق دمجًا هندسيًا متسقًا للرموز الزائدة عبر الإطارات.
علاوة على ذلك، تم إدخال آلية تصحيح الموقع بعد الدمج، وذلك للقضاء على الانحرافات المكانية التي قد تنتج عن عملية الدمج من خلال إعادة تقييم ديناميكي لموقع مركز الثقل الرمزي. حيث تضمن هذه التحسينات زيادة دقة الوعي المكاني الضروري للتشغيل المتقن.
في تجربة مهام الإجابة على الأسئلة من خلال الفيديو على نموذج Qwen2.5-VL، حقق ST-Merge زيادة في سرعة الاستجابة تصل إلى مرتين مع خسارة ضئيلة في الدقة تبلغ 1%. وعند التطبيق على سياسة VLA الجديدة، أثبت ST-Merge قدرته على تحقيق زيادة تصل إلى 8.3 مرة في السرعة عند دقة تصل إلى 1024×1024، مع الاحتفاظ بمعدل نجاح مماثل في الإعدادات عالية الدقة. بينما لاحظنا انخفاضًا طفيفًا في الدقة عند استخدام دقة أقل.
تعتبر هذه الابتكارات فتحًا جديدًا في مجال الذكاء الاصطناعي، محققة تحسينات جذرية في سرعة وكفاءة استجابة الروبوتات. فما رأيكم في هذه التطورات المثيرة؟ شاركونا آراءكم في التعليقات.
سرعة فائقة: دمج الرموز البصرية في الزمان والمكان لتحقيق تحكم روبوتي فوري
اكتشاف تقنيات جديدة لزيادة سرعة استجابة الروبوتات في عالم الذكاء الاصطناعي. نظام ST-Merge يحقق ثورة في أداء نماذج الرؤية-اللغة من خلال دمج رموز الصور بكفاءة ودقة غير مسبوقة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
