في عالم متسارع، تواجه [نماذج [الرؤية](/tag/الرؤية) واللغة](/tag/[نماذج](/tag/نماذج)-[الرؤية](/tag/الرؤية)-واللغة) ([Vision-Language Models](/tag/vision-language-models) - [VLMs](/tag/vlms)) [تحديات](/tag/تحديات) عديدة في [تفسير](/tag/تفسير) المشاهد عندما تكون الظروف غير ملائمة، كالإضاءة المنخفضة أو [الحركة](/tag/الحركة) السريعة. ولكن [فريق](/tag/فريق) من [الباحثين](/tag/الباحثين) أطلقوا [تقنية جديدة](/tag/[تقنية](/tag/تقنية)-جديدة) تسمى RE-VLM، وهي [نموذج ثنائي المسار](/tag/[نموذج](/tag/نموذج)-ثنائي-المسار) يجمع بين [الصور](/tag/الصور) العادية (RGB) وبيانات الأحداث، ليستجيب بشكلٍ أفضل لهذه التحديات.
تعتمد [الكاميرات الحدثية](/tag/[الكاميرات](/tag/الكاميرات)-الحدثية) على تسجيل التغيرات في السطوع لكل بكسل بدقة زمنية عالية، مما يساعد على الاحتفاظ بمؤشرات [الحركة](/tag/الحركة) التي قد تفقدها [الصور](/tag/الصور) التقليدية في ظروف معينة. وبهذه الطريقة، يحقق RE-[VLM](/tag/vlm) فهمًا شاملاً للمشاهد، ما يجعله الأول من نوعه!
النموذج يستخدم ترميزًا مزدوجًا وتحتيجًا تدريجيًا لمواءمة الميزات البصرية المتنوعة مع اللغة، مما يعزز من قدرتها على [معالجة المعلومات](/tag/معالجة-[المعلومات](/tag/المعلومات)) بصورة مبتكرة. ومع وجود [قواعد بيانات](/tag/قواعد-[بيانات](/tag/بيانات)) جديدة مثل PEOD-Chat وRGBE-Chat، يتيح هذا النموذج الفريد تفاعلاً متوازنًا بين [الصور](/tag/الصور) والنصوص في مختلف الظروف.
أثبتت النتائج أن RE-[VLM](/tag/vlm) يتفوق باستمرار على [النماذج](/tag/النماذج) التقليدية سواء كانت قائمة على RGB فقط أو الأحداث فقط، خصوصًا في البيئات المعقدة. ما يفتح الأبواب لمستقبلٍ جديدٍ في [فهم](/tag/فهم) [البيئة](/tag/البيئة) المحيطة بنا.
إذا كنت مهتمًا بعالم [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي) وكيفية استخدام هذه التقنيات المتطورة، سواء في [الصناعة](/tag/الصناعة) أو [البحث](/tag/البحث) العلمي، فلا تتردد في متابعة آخر [التحديثات](/tag/التحديثات) في هذا المجال.
RE-VLM: نموذج ثوري لفهم المشاهد باستخدام التكنولوجيا الضوئية المتقدمة!
تمثل تقنية RE-VLM طفرة في نماذج الرؤية واللغة، حيث تم دمج الصور العادية مع البيانات المُعتمدة على الأحداث لتعزيز فهم المشاهد في ظروف التحدي. مما يوفر دقة عالية في تفسير الصور حتى في الإضاءة المنخفضة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
