في عالم تعج فيه الابتكارات، تظهر [تقنية جديدة](/tag/[تقنية](/tag/تقنية)-جديدة) تُعرف بتقنية [ترميز](/tag/ترميز) [الصور](/tag/الصور) المرئية المنفصلة (Disentangled Visual [Tokenization](/tag/tokenization)) أو اختصارًا DiVT، لتحدث نقلة نوعية في كيفية تعامل [نماذج [اللغات](/tag/اللغات) الكبيرة](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)-الكبيرة) [المتعددة الوسائط](/tag/المتعددة-الوسائط) (Multimodal Large Language [Models](/tag/models)) مع [الصور](/tag/الصور). بينما تحافظ [نماذج اللغة](/tag/[نماذج](/tag/نماذج)-[اللغة](/tag/اللغة)) على نموذجها الثابت، تُدرّب [DiVT](/tag/divt) جهاز عرض بصري [جديد](/tag/جديد) يسمح بتحويل [الصور](/tag/الصور) إلى تسلسل من الرموز، مما يمكّن [معالجة الصور](/tag/معالجة-[الصور](/tag/الصور)) بنفس أسلوب [معالجة النصوص](/tag/معالجة-النصوص).
اليوم، تُشكل مشكلة [تحويل الصور](/tag/[تحويل](/tag/تحويل)-[الصور](/tag/الصور)) إلى [رموز](/tag/رموز) سلبية تحديًا كبيرًا، حيث يُستخدم جهاز العرض التقليدي لتحويل [الصور](/tag/الصور) إلى تدفقات طويلة من التعبيرات المستمرة والمتشابكة. وهذا يؤدي إلى عدم [توافق](/tag/توافق) الرموز المرئية مع الوحدات المعنوية التي تم [تدريب](/tag/تدريب) [نماذج](/tag/نماذج) [اللغويات](/tag/اللغويات) الكبيرة لفهمها. لكن [DiVT](/tag/divt) تأتي لتحدث تغييرًا جذريًا، حيث تجمع الرموز من قسم التمثيلات إلى وحدات معنوية صحيحة، بحيث يصبح كل رمز يمثل مفهومًا بصريًا مميزًا بدلاً من أن يكون مجرد خلية على شبكة جامدة.
تتميز [DiVT](/tag/divt) بتكيف [ميزانية](/tag/ميزانية) الرموز الخاصة بها مع تعقيد الصورة، مما يمنح المستخدمين القدرة على الحصول على توازن دقيق بين [الدقة](/tag/الدقة) والاستهلاك الحاسوبي، دون الحاجة لتعديل كل من مُحوّل [الرؤية](/tag/الرؤية) أو [نموذج اللغة](/tag/[نموذج](/tag/نموذج)-[اللغة](/tag/اللغة)). وقد أظهرت الاختبارات [عبر](/tag/عبر) [معايير متعددة الوسائط](/tag/[معايير](/tag/معايير)-متعددة-الوسائط) أن [DiVT](/tag/divt) لا تتفوق فقط على الأساليب السابقة، بل تفعل ذلك أيضًا بعدد [رموز](/tag/رموز) مرئية أقل بكثير، مما يقلل التكاليف التخزينية والوقت المستغرق.
إن هذا [الابتكار](/tag/الابتكار) ليس مجرد [تحسين](/tag/تحسين) تقني، بل هو خطوة [نحو](/tag/نحو) جعل المدخلات المرئية أكثر توافقًا مع [نماذج اللغات](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)) الكبيرة، مما يفتح الأبواب أمام إمكانيات جديدة في [العالم الرقمي](/tag/العالم-الرقمي). لا تفوتوا فرصة [اكتشاف](/tag/اكتشاف) الشفرة الخاصة بالتقنية والتي يمكنكم الاطلاع عليها على [رابط_الكود]. ما رأيكم في هذا التطور؟ شاركونا في [التعليقات](/tag/التعليقات)!
ثورة جديدة في نموذج ترميز الصور: تقنية DiVT تقدّم رؤية أكثر دقة للذكاء الاصطناعي!
تقنية DiVT تتحدى الأساليب التقليدية في ترميز الصور، مقدّمةً حلاً مبتكرًا لتحسين التفاعل بين نماذج اللغويات الكبيرة والصور. هل سيغير هذا من طريقة فهم الذكاء الاصطناعي للصور؟
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
