في عالم يسعى فيه الذكاء الاصطناعي (AI) لجعل حياتنا اليومية أسهل وأكثر فعالية، تظهر ابتكارات جديدة تضفي طابعاً ذكياً على الأجهزة المحمولة. أحد هذه الابتكارات هو SCOPE، وكيل كاميرا لغوي يعمل في الوقت الحقيقي، مصمم لتحسين التحكم في الكاميرات والاستجابة للتعليمات اللغوية الطبيعية.
SCOPE (Simulation and Camera Operations for Perception and Evaluation) ينطوي على إمكانية كبيرة لاستخدامه في الروبوتات، إذ يتطلب تنفيذ عملاء مدفوعين باللغة تقييمات تعكس مطالب المهام في العالم الحقيقي. ويشمل ذلك التعليمات باللغة الطبيعية والنتائج القابلة للتكرار.
يعمل SCOPE على توصيل نماذج اللغة (Language Models) بأدوات الرؤية والتحكم، ويُقيم باستخدام مقاييس حيوية تشمل زمن الاستجابة (Latency) والدقة وأوضاع الخطأ. he يستفيد SCOPE من بيئة محاكاة مبنية على Blender بالإضافة إلى كاميرا Pan-Tilt-Zoom (PTZ) فعلية، حيث يقوم بتنفيذ جميع عمليات الرؤية والتخطيط والتحكم محلياً باستخدام موارد حوسبة يمكن الوصول إليها في موقع الانتشار.
مع إطلاق معيار يتكون من 536 مهمة تغطي مجالات مثل الأسئلة والأجوبة (QA)، والأوامر المفردة والمتعددة الخطوات، والعد، والتفكير المكاني، والوصف، واكتشاف الأحرف البصرية (Optical Character Recognition) في بيئة المحاكاة هذه، يوفر SCOPE بيئة مثالية للتميز في الأداء عند التحكم بكاميرات PTZ.
تظهر النتائج أن النماذج الأكثر قوة في نموذج اللغة (SLM) تقلل بشكل كبير من الهلاوس (Hallucinations) وتحسن من توجيه الأدوات، مما يؤدي إلى سلوك دائري أكثر موثوقية. وعندما يتم استخدام SLM قوية بما فيه الكفاية، يصبح الإدراك (Perception) العنصر الأكثر تقييداً في الأداء. كما أن نماذج Mixture-of-Experts على جانبي التخطيط والإدراك تتطابق باستمرار مع بدائل كثيفة أو تتجاوزها، مع زمن الاستجابة والأثر الذاكرة القابلة للمقارنة مع الشبكات الأصغر بكثير.
تُعد عملية الكوانتزه (Quantization) مفيدة أيضاً حيث تزيد من الكفاءة مع الحفاظ على دقة متناهية. مما يجعل SCOPE نقطة تصميم عملية وموثوقة لنظام تحكم PTZ المدفوع باللغة في الوقت الحقيقي وبالقرب من نقطة الانتشار.
SCOPE: وكيل كاميرا لغوي ذكي يعمل في الوقت الحقيقي لنقل المعلومات على الحافة
تقدم SCOPE نموذجاً متقدماً لوكيل كاميرا يستخدم اللغة الطبيعية للتحكم في الكاميرات وتفسير المشاهد، مما يجعله مثالياً للاستخدام في البيئات الحقيقية. يعمل هذا النظام على تحسين دقة التنفيذ وتقليل الأخطاء بشكل ملحوظ.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
