في عالم الذكاء الاصطناعي، تتزايد الحاجة إلى [أنظمة](/tag/أنظمة) قادرة على الفهم المرن ودقيق للأشياء التي تحيط بنا. في هذا السياق، قدمت مجموعة من [الباحثين](/tag/الباحثين) نظامًا جديدًا يسمى [SWIM](/tag/swim) (See What I Mean)، وهو [استراتيجية](/tag/استراتيجية) [تدريب](/tag/تدريب) مبتكرة تهدف إلى [محاذاة](/tag/محاذاة) [تمثيلات](/tag/تمثيلات) [الرؤية واللغة](/tag/[الرؤية](/tag/الرؤية)-واللغة). هذه [التقنية](/tag/التقنية) تسمح للفهم الدقيق للكائنات فقط من خلال [التعليمات](/tag/التعليمات) النصية.
ما يميز [SWIM](/tag/swim) هو أنه لا يحتاج لإشارات بصرية صريحة مثل الأقنعة أو النقاط كما هو الحال في الأساليب الحالية. بدلاً من ذلك، يستخدم إشراف الأقنعة فقط خلال مرحلة التدريب، مما يتيح للنموذج [الانتباه](/tag/الانتباه) تلقائيًا إلى الكائن المحدد من قبل المستخدم خلال مرحلة [التقييم](/tag/التقييم).
أظهرت التحليلات التي أجراها الباحثون على [نماذج لغوية متعددة الوسائط](/tag/[نماذج](/tag/نماذج)-لغوية-متعددة-الوسائط) المدربة مسبقًا ([MLLMs](/tag/mllms)) وجود تباين منهجي: حيث تخلف كلمات الصفات [تفاعلات](/tag/تفاعلات) حادة ومحددة في نمط الرؤية، بينما تؤدي الأسماء الشائعة إلى أنماط مشوشة وعشوائية نتيجة لتمييع الإشارة الدلالية.
لمعالجة هذا التباين، تم [تطوير](/tag/تطوير) [مجموعة بيانات](/tag/مجموعة-[بيانات](/tag/بيانات)) غنية تسمى NL-Refer، حيث يتم ربط كل قناع كائن بتعبير لغوي دقيق يشير إليه. يقوم [SWIM](/tag/swim) باستخراج [خرائط](/tag/خرائط) [التفاعل](/tag/التفاعل) العابر متعددة الطبقات من الأسماء الشائعة ويفرض [التناسق](/tag/التناسق) المكاني مع الأقنعة الحقيقية.
تظهر النتائج التجريبية أن [SWIM](/tag/swim) يُحسن بشكل كبير من [توافق](/tag/توافق) النص والرؤية ويحقق [أداء](/tag/أداء) متفوق على الطرق المعتمدة على الإشارات البصرية في [اختبارات](/tag/اختبارات) [فهم الكائنات](/tag/[فهم](/tag/فهم)-الكائنات) الدقيقة. لمزيد من التفاصيل، يمكن الاطلاع على [الكود](/tag/الكود) وبيانات النظام من خلال الرابط التالي: [https://github.com/HumanMLLM/SWIM].
ما رأيكم في هذه [التقنية](/tag/التقنية) الجديدة؟ هل تعتقدون أن [SWIM](/tag/swim) يمكن أن يحدث تغييرًا في كيفية [إدراك](/tag/إدراك) [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي) للأشياء؟ شاركونا آراءكم في [التعليقات](/tag/التعليقات)!
نظام SWIM: ثورة جديدة في فهم الكائنات باستخدام الرؤية واللغة!
قدم فريق الباحثين نظام SWIM (See What I Mean)، والذي يعد استراتيجية تدريب مبتكرة تجمع بين معالجة اللغة ورؤية الكمبيوتر لتحقيق فهم بعيد الدقة للكائنات بناءً على تعليمات نصية فقط. يهدف هذا النظام إلى تحسين دقة التعرف على الكائنات دون الحاجة إلى إشارات بصرية صريحة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
