في عالم الذكاء الاصطناعي، تحقق نماذج الرؤية واللغة الكبيرة (Large Vision-Language Models) تقدمًا مذهلاً في المهام المتعددة الوسائط. ولكن ماذا لو أخبرتك أن هناك هيكلاً جديدًا يمكن أن يُحسن كفاءة هذه النماذج بشكل كبير؟

تدخل دراسات حديثة إلى ساحة تطوير نماذج الرؤية واللغة الكبيرة، حيث تم تقديم هيكل جديد يُعرف باسم AsyMoE، والذي يهدف إلى معالجة الفجوة الموجودة في كيفية معالجة المدخلات اللغوية والبصرية. إذ أنه من المعروف أن التقنيات الحالية تعتمد على المعمارية المتماثلة، ما يؤدي إلى معالجة غير فعالة لشكل العلاقات بين النصوص والصور.

تظهر الأبحاث أن العلاقة بين النص والرؤية هي علاقة هرمية، حيث توضح استفسارات النص جوانب جزئية فقط من المشاهد البصرية الكاملة. وقد أظهرت النماذج التقليدية صعوبة في التعامل مع هذه المشكلة، حيث لم تتمكن من تشفير النسب الهيراركية بشكل فعال.

علاوة على ذلك، فإن اللغات في الطبقات العميقة تتحول من المعالجة المستندة إلى الأدلة إلى الاعتماد على الذاكرة البارامترية، مما يؤدي إلى فقدان الترابط مع المعلومات المقدمة. هنا يأتي دور AsyMoE، الذي يقدم مجموعة من ثلاث فرق خبراء متخصصة تعالج هذه التحديات. حيث يقوم الخبراء المخصصون بدعم المعالجة الفريدة لكل نوع، بينما تتعامل الخبراء في الجيومتري المنحني مع العلاقات الهرمية بين المدخلات المتعددة.

وأثبتت التجارب الشاملة فعالية هذا الهيكل الجديد، إذ حقق AsyMoE تحسينات ملحوظة بمتوسط زيادة تصل إلى 1.5% مقارنةً بالنماذج السابقة وبنسبة تصل إلى 3.8% في المهام الحساسة للهلوسة. كما أنه يُستخدم 25.45% عدد أقل من المعلمات مقارنةً بالنماذج الكثيفة، مما يعكس الكفاءة الكبيرة في الأداء.

في ختام هذا البحث القيمة، يظهر AsyMoE كعيد جديد في معالجة النماذج متعددة الوسائط ودعوة للابتكار.

ما رأيكم في هذا التطور؟ شاركونا في التعليقات.