تظل مسألة تحسين التعميم *(Generalization)* من التحديات الجوهرية للنماذج التي تجمع بين الرؤية واللغة والعمل *(Vision-Language-Action (VLA) Models)*. تواجه هذه النماذج صعوبات عند التعامل مع المشتتات، وتغييرات المظهر، والمهام المشابهة من الناحية الدلالية، إذ يتعين عليها في كثير من الأحيان استنتاج تفاصيل التنفيذ المحلي من توجيهات عامة، بينما يجب عليها أيضاً تحديد الأجزاء المهمة من الصورة للتحكم.
في هذا السياق، تم تقديم إطار عمل جديد يحمل اسم **S2 (See Less, Specify More)**، الذي يهدف إلى تحسين تعميم نماذج الـVLA عبر تدريب المكون التنفيذي *(Executor)* ضمن واجهة أنظف. تعتمد استراتيجية **Specify More** على الحفاظ على التعليمات الأصلية كهدف استراتيجي مستقر، مع إعادة تعليم كل مسار إلى لغة أكثر دقة تتعلق بالمسار الفرعي، مما يساعد في توضيح وضع التنفيذ الحالي.
على عكس طريقة الانتباه التقليدية، تفرض استراتيجية **See Less** ميزانية بيانات بصرية فعلية، مما يتيح للمكون التنفيذي العمل من أدلة بصرية كافية للمهام بدلاً من السياق البصري غير المحدود، دون الحاجة إلى تحديد المناطق أو إعداد الاقنعة. يسمح هذا التصميم للمكون التنفيذي باتباع إرشادات تفصيلية دون الاعتماد على تفاصيل بصرية شائكة أو حل الغموض القابل للتجنب بمفرده، كما يبقى متوافقًا مع المخططين المعتمدين على الـVLM عبر التعلم في السياق.
أظهرت نتائج التقييم الرئيسية أن نموذج S2 يحسن مؤشرات التعميم الكلية من خلال تغيير المشكلة التعلمية للمكون التنفيذي: إذ تجعل التعليمات العامة تتسبب في شتى أنواع الارتباك القابل للتجاوز، بينما يتفوق التوجيه المحلي الذي يحافظ على الأهداف على استبدال التعليمات في العديد من التقارير التي تم تقييمها. علاوةً على ذلك، تقلل الميزانية البصرية الصريحة من الاعتماد على السياق البصري الواسع بما يتجاوز اعتبارات الكفاءة.
في اختبارات سريعة على ثمانية مهام حقيقية للروبوتات باستخدام TX-G2، وهو نسخة متوافقة مع AgiBot G2، وHSR، ارتفع معدل نجاح المهام الفرعية المتوسط من 54.2% إلى 79.0% مقارنةً بالنسخة السابقة. تشير هذه النتائج معًا إلى أن تحسين تعميم VLA يتحقق عندما يتم تدريب المكون التنفيذي على العمل من إرشادات محلية معلوماتية وأدلة بصرية كافية وفق للمهام، بدلاً من استعادة كل شيء من إشراف ضعيف.
نموذج جديد لتعزيز التحسين في الذكاء الاصطناعي: س2 فهم أقل، تحدد أكثر!
تقرير جديد يكشف عن إطار عمل ثوري يعزز الأداء العام لنماذج الذكاء الاصطناعي من خلال تحسين الفهم البصري. يعد S2 خطوة فارقة نحو تطوير نماذج رؤية-لغة-عمل أكثر كفاءة وفعالية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
