تواجه نماذج اللغات الضخمة (MLLMs) تحديًا كبيرًا في مسألة الهلوسة، حيث تتسبب في إنتاج محتوى غير متناسق مع المدخلات المرئية. هذه المشكلة غالبًا ما تُعزى إلى الاعتماد المفرط على أولويات اللغة، التي يمكن أن تتجاوز السياق المرئي. في استجابة لهذه الظاهرة، تم تطوير استراتيجيات ترميز جديدة تعتمد على عدم الحاجة إلى التدريب، والتي تعاقب أولويات اللغة في محاولة للتصحيح. ومع ذلك، فإن هذه الأساليب تتجاهل الطبيعة المزدوجة لأوليّات اللغة، حيث يمكن أن تكون مفيدة أو ضارة بناءً على مدى توافقها مع الأدلة المرئية.
لذا، تم تقديم مفهوم جديد يسمى التعديل القائم على بُعد النماذج (Manifold-Guided Adaptive Projection - MGAP)، الذي يمثل طريقة غير قائمة على التدريب تتعامل مع الهلوسة في حين تحافظ على بنية التمثيل. تعتمد هذه الطريقة على إنشاء فضاء فرعي لأوليّات اللغة من خلال استخدام تحليل القيمة المنفصلة (SVD) في الحالة الخفية أعمى.
أثناء عملية الترميز، يقوم MGAP بتوجيه كل حالة خفية متعددة الوسائط إلى هذا الفضاء الفرعي، ويطبق بوابة مدركة للتناسق بشكل تكييفي لتقليل المكون الأساسي للأولويات فقط، مما يؤدي إلى تحديث انتقائي يحافظ بشكل كبير على المكونات المعنوية المتعامدة.
أظهرت التجارب المكثفة على مجموعتي بيانات POPE وCHAIR أن MGAP يتفوق على المعايير السابقة للترميز، حيث يحقق كبحًا أقوى للهلوسة دون التضحية بالتناسق.
في ضوء هذه النتائج، يبدو أن MGAP يمثل خطوة جديدة إلى الأمام في تصميم نماذج اللغة، مما يعدنا بمستقبل أكثر موثوقية في استخدام الذكاء الاصطناعي في الترجمة الفورية والتفاعل بين الإنسان والآلة.
حل مبتكر لمشكلة الهلوسة في نماذج اللغات الضخمة: اكتشاف بُعدي موثوق للترميز
يقدم بحث جديد حلاً مبتكرًا لمشكلة الهلوسة في نماذج اللغات الضخمة (MLLMs)، من خلال اعتماد طريقة التعديل التكييفي القائم على الهندسة. وهذا يسهم في تحسين دقة الترجمة مع الحفاظ على انسجام المحتوى.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
