في عالم الذكاء الاصطناعي، حققت نماذج اللغة متعددة الوسائط (Multimodal Large Language Models) تقدماً هائلاً في أداء المهام المتعلقة بالصور. ومع ذلك، فإن هذه النماذج تواجه تحديات كبيرة عند تطبيقها على تصنيف الصور على نطاق واسع، حيث يتدهور أداؤها بشكل كبير كلما زادت مساحة التصنيفات. يُطلق على هذه الظاهرة اسم تدهور الأداء في التعرف على التسلسلات الطويلة.
تظهر الأبحاث التي أُجريت أن هذا التدهور ناتج عن صراع أساسي بين زيادة تعقيد المعلومات وتخفيف التركيز الناجم عن آليات الانتباه، مما يؤثر سلباً على قدرة النموذج في الحفاظ على نسبة إشارة إلى ضجيج كافية عند معالجة محركات طويلة جداً. للتغلب على هذا التحدي، تم اقتراح أسلوب جديد يسمى تقسيم وتحقق (Divide-and-Conquer Inference - DCI).
يستند أسلوب DCI إلى تفكيك المهام العالمية المعقدة إلى مشكلات فرعية أبسط، مما يسمح بتطبيق آلية قص ديناميكية لتقليل حجم البحث. يساهم هذا الأسلوب في تحسين نسبة الإشارة إلى الضجيج ودقة النموذج، مما يساعد على معالجة القضايا الطبيعية المتعلقة بتخفيف الوزن في التحقق من التسلسلات الطويلة.
علاوة على ذلك، بينما تتطلب آلية الانتباه التقليدية تكاليف حسابية ضخمة، فإن DCI يحقق سلوكاً أكثر ملاءمة في النطاقات ويعجل من عملية الاستدلال في سيناريوهات التصنيف الكبيرة. وقد أظهرت التجارب الشاملة على معايير مثل ImageNet-1K و ImageNet-21K أن DCI يؤدي دائماً إلى تحسين دقة التصنيف.
يتيح هذا الأسلوب للنماذج المفتوحة المصدر الخفيفة أن تنافس أو حتى تتفوق على النماذج المغلقة الرائدة دون أي تدريب إضافي أو تحسين. كمنهجيات مستقلة وقابلة للتوصيل، يوفر DCI طريقة فعالة لزيادة دقة الاستدلال في سيناريوهات واسعة النطاق.
ثورة في التعرف البصري: تقسيم وتحقق مع نماذج لغوية متعددة الوسائط!
تقدم الأبحاث الجديدة أسلوباً مبتكراً لتحسين دقة التصنيف في الصور باستخدام نماذج لغوية متعددة الوسائط (MLLMs). يعتمد هذا الأسلوب على تقنيات تقسيم وتحقق لتعزيز الأداء في المهام الكبيرة والمتنوعة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
