تعتبر مسألة حل الغموض أحد أبرز التحديات التي تواجه الترجمة الآلية متعددة الوسائط (Multimodal Machine Translation - MMT). إذ يجب على النماذج أن تستفيد بشكل فعلي من المدخلات البصرية لتفسير العبارات الغامضة وتحديد معانيها الصحيحة. في سياق هذا التحدي، تم تطوير قاعدة بيانات جديدة تُعرف باسم VIDA (Visually-Dependent Ambiguity) التي تشمل 2500 حالة مُعَدَّة بعناية.
رغم وجود بعض البحوث السابقة التي شهدت على دور الرؤية في تقديم معايير تفكيك الغموض، إلا أن هناك مشكلات واضحة في جودة البيانات وعدم توافقها مع سيناريوهات الترجمة الواقعية. كما أن التقييمات الحالية لم تُظهر ملاءمتها لمجموعة أوسع من أنواع الغموض في الترجمة المفتوحة. ولذلك، تم إنشاء VIDA لتكون بمثابة أداة قيمة لحل هذه التحديات.
فضلاً عن ذلك، تُقدّم VIDA معايير خاصة تُعَدّ الأفضل في عملية التفكيك، من خلال استخدام نماذج لغوية ضخمة (Large Language Models) كآلية للتحقق من صحة كل تعبير غامض تم تعليمه، مع التركيز على مستوى المقطع.
كشفت التجارب التي أُجريت على نموذجين من نماذج اللغة البصرية الرائدة أن تقنية تدريب الإشراف المتقدم (Supervised Fine-Tuning - SFT) تساهم في تحسين جودة الترجمة بشكل عام، ولكن المحصلة الأكثر بدعة كانت من استخدام تقنية تعلم سلسلة الفكرة (Chain-of-Thought Fine-Tuning - CoT-SFT)، حيث أثبتت فاعليتها في تعزيز دقة التفكيك، خاصةً في حالات البيانات خارج التوزيع، مما يدل على عمق التعميم في معالجة أنواع الغموض المتنوعة.
إعادة صياغة عالم الترجمة: قاعدة بيانات مبتكرة تعمل على حل الغموض البصري!
تم الكشف عن قاعدة بيانات جديدة تُعرف باسم VIDA، تهدف إلى معالجة التحديات التي تواجه الترجمة الآلية المتعلقة بالغموض البصري. مع تزايد الاعتماد على الذكاء الاصطناعي، تُعزِّز VIDA دقة الترجمة من خلال تقديم أكثر من 2500 حالة مُعَدَّة بعناية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
