في عصر يتزايد فيه الاعتماد على نماذج الرؤية واللغة والعمل (Vision-Language-Action Models)، أصبح الاتصال البصري أحد أكبر التحديات التي تواجه التحكم الروبوتي في الوقت الحقيقي. المشكلة تكمن في أن تقنيات ضغط الصور والمقاطع الفيديو الحالية ليست مصممة لتحسين أداء التحكم، بل تحفظ الجودة البصرية العامة فقط. لحل هذه المشكلة، تم تطوير إطار عمل ضغط الصور SPARC (SPatially Adaptive Rate Control) بشكل خاص للروبوتات المدفوعة بنماذج VLA.
تستند فكرة SPARC إلى ملاحظة رئيسية: تختلف أهمية المعلومات البصرية باختلاف زوايا الكاميرا والمناطق المختلفة داخل الصورة. ولذلك، يستخدم النظام مُختار قناع زمني خفيف الوزن يمكّن من توزيع معدل البت (bitrate) بشكل ديناميكي وفقًا لأهمية المهمة. بالإضافة إلى ذلك، تم إدخال فقدان معدل مائل (tilted rate loss) يساعد في استقرار التدريب عن طريق تقليل ميل الأهداف المستندة إلى الانتروبيا للحد من أنماط مرئية نادرة لكنها حاسمة.
أظهرت التجارب العملية على مؤشرات روبوتية متنوعة مثل RoboCasa365 وVLABench وLIBERO أن SPARC تتفوق بشكل مستمر على تقنيات ضغط الصور والفيديو التقليدية، وحتى على الأساليب الحديثة لضغط البيانات، ضمن نفس ميزانية معدل البت. كما يوضح البحث الفوائد العملية في البيئات ذات التحكم عن بعد، حيث تحقق التقنية تحسينًا كبيرًا في التوازن بين معدل البت ونجاح الأداء.
ابتكار ضغط الصور الذكي: خطوة نحو تحسين نماذج الرؤية واللغة والعمل
تقدم تقنية SPARC الجديدة ضغط الصور المخصص لنماذج الرؤية واللغة والعمل، محققة تحسينات واضحة في الأداء. هذه التطورات قد تحدث ثورة في التحكم الروبوتي، خصوصاً في البيئات ذات سعة النطاق المحدودة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
