في عصر الذكاء الاصطناعي، تسعى التقنيات المتقدمة دائمًا لتجاوز حدود الممكن. وقد تمكن الباحثون حديثًا من تطوير فئة جديدة من التمثيلات البصرية تُعرف بالتمثيلات البصرية القابلة للتوجيه (Steerable Visual Representations) والتي تعتمد على نموذج التحويل البصري المدرب مسبقًا مثل DINOv2 وMAE.
التحدي الأكبر الذي تواجهه النماذج الموجودة هو تركيزها على اللمحات البصرية الأكثر ظهورًا في الصورة، مما قد يُهمل المفاهيم الأقل وضوحًا. بينما تسمح النماذج متعددة الوسائط (Multimodal LLMs) بتوجيه التمثيلات باستخدام نصوص، إلا أن تلك التمثيلات غالبًا ما تكون مركّزة على اللغة مما يفقدها فعالية في المهام البصرية العامة.
تقدم التمثيلات البصرية القابلة للتوجيه حلاً مبتكرًا، حيث يمكن توجيه الميزات العالمية والمحلية باستخدام اللغة الطبيعية. في حين أن معظم نماذج الرؤية والنصوص، مثل CLIP، تدمج النصوص مع الميزات البصرية بعد التشفير (الدمج المتأخر)، فإننا نقوم بحقن النصوص مباشرة في طبقات المُشفّر البصري (الدمج المبكر) من خلال تضمين خفيف باستخدام الانتباه المتقاطع.
كما تم تقديم معايير جديدة لقياس قابلية توجيه التمثيلات، وقد أظهرنا أن ميزاتنا القابلة للتوجيه يمكن أن تركز على أي كائن مرغوب في الصورة مع الحفاظ على جودة التمثيل الأساسية. بالإضافة إلى ذلك، فإن أسلوبنا يتفوق أو يساوي الأساليب المتخصصة في اكتشاف الشذوذ (anomaly detection) والتفريق بين الكائنات الشخصية، مما يظهر فعالية غير مسبوقة في المهام غير المعروفة.
تأملات في القيم الجديدة التي تقدمها هذه التقنيات تُظهر كيف يمكن للذكاء الاصطناعي أن يعيد تشكيل طريقة فهمنا للعالم البصري من حولنا. انضموا إلينا في استكشاف هذه الجوانب الجديدة!
إعادة تعريف الذكاء البصري: تمثيلات بصرية قابلة للتوجيه تتجاوز الحدود التقليدية!
أعلنت دراسة جديدة عن تمثيلات بصرية قابلة للتوجيه تُعيد تعريف كيفية تعاملنا مع البيانات البصرية. هذه التقنية تقدم تحكمًا أكبر في التركيز على المفاهيم الأقل تميزًا، مما يجعلها مثالية لمهام التحليل المختلفة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
