تتطور تكنولوجيا التعاون بين الإنسان والروبوت بشكل سريع، حيث يسعى الباحثون إلى تعزيز الأمان في هذه التفاعلات الحيوية. لا تكفي الإشارات البصرية وحدها لضمان سلامة التواصل بين الإنسان والروبوت؛ بل يتطلب الأمر فهمًا عميقًا لطبيعة الاصطدامات المحتملة قبل حدوثها.

مفهوم "تحديد الاصطدام" (collision grounding) يظهر كأحد العناصر الأساسية في هذا السياق، حيث يقوم بتطبيق ملاحظات بصرية على هندسة جسم الروبوت، وزاوية الكاميرا، وترتيب المشهد، بالإضافة إلى قرب الإنسان وحركة الزمن، وذلك لتقدير حالات الاتصال الحالية والمحتملة.

لتسهيل هذا البحث، تم تقديم معيار جديد يدعى "TouchSafeBench"، وهو معيار معتمد على الفيزياء وبهدف تقييم القدرة على تحديد الاصطدام في نماذج الرؤية واللغة (Vision-Language Models). يتم بناء TouchSafeBench على الإصدار 3.0 من نظام Habitat، ويحتوي على 2,940 حلقة محاكاة داخلية تظهر فيها مشاركة اجتماعية وتنقل اجتماعي، مدعومة بملاحظات متعددة الزوايا ثلاثية الأبعاد، وخرائط مسار علوية، وبيانات مصفوفة الكاميرا، وعلامات اتصال مشتقة من المحاكي.

تتم دراسة مهمتين رئيسيتين تتعلقان بالنشر: تصنيف حالة السلامة الحالية وإنذار الاصطدام الوشيك قبل حدوثه. تشير النتائج حتى الآن إلى أن النماذج الحالية تبقى بعيدة عن تحقيق مستوى موثوق به؛ حيث لا يتجاوز متوسط دقة Macro-F1 الـ 50%، ولم يتم تحويل العمق بشكل تلقائي إلى دليل اصطدام لجسم الروبوت، بينما يعتبر اتصال الروبوت بالمشهد أصعب من تقدير خطر الاتصال بالإنسان.

تكشف TouchSafeBench عن قيد مركزي في نماذج الرؤية واللغة المجسدة: المعالجة البصرية السلسة لا تضمن المسئولية الجسدية. ولذلك، يحتاج المراقبون الموثوقون لسلامة الروبوت إلى تمثيلات تربط بوضوح بين زوايا الرؤية، مورفولوجيا الروبوت، الهندسة المترية، والاصطدامات المستقبلية. سيتم إطلاق هذا المعيار بعد قبوله.