في السنوات الأخيرة، حققت نماذج تحرير الصور تقدمًا كبيرًا، مما أتاح للمستخدمين إمكانية التفاعل مع المحتوى المرئي بطريقة مرنة وتفاعلية عبر تعليمات اللغة الطبيعية. ومع ذلك، هناك اتجاه بحثي مهم لم يتم استكشافه بشكل كافٍ بعد، وهو تحرير الوثائق البصرية المعقدة، حيث يتضمن تعديل المحتوى النصي داخل الصور مع الحفاظ على أسلوب النص الأصلي وسياق الخلفية بدقة.
عادةً ما تركز الطرق الحالية على السيناريوهات التي تتعلق باللغة الإنجليزية والصور ذات النصوص ذات الكثافة المنخفضة، مما يعني أنها لا تستطيع التعامل بشكل كافٍ مع الوثائق المعقدة وكثيفة النصوص أو الأنظمة غير اللاتينية مثل اللغة الصينية. لمواجهة هذه الفجوة، نقدم VDE Bench (Visual Doc Edit Bench)، وهو معيار تم تقييمه بعناية من قبل بشر، تم تصميمه خصيصًا لتقييم أداء نماذج تحرير الصور على مهام تحرير الوثائق البصرية المعقدة والثنائية اللغة.
تتضمن هذه المعيار قاعدة بيانات عالية الجودة تضم 942 عينة من الصور المعدلة المستندة إلى التعليمات، حيث تحتوي الصور الأصلية على نصوص مزدحمة باللغة الصينية والإنجليزية، بما في ذلك أوراق أكاديمية، ملصقات، شرائح عرض، مواد امتحانية، وصحف. بالإضافة إلى ذلك، نقدم إطار تقييم جديد يقيس أداء التحرير بشكل منهجي على مستوى تحليل النصوص عبر تقنية OCR (Optical Character Recognition)، مما يتيح تقييم دقيق لمدى دقة تعديل النص.
بدءًا من هذا المعيار، أجرينا تقييمًا شاملاً لنماذج تحرير الصور التمثيلية. وتظهر نتائج التحقق البشري درجة عالية من التوافق بين الأحكام البشرية ومقاييس التقييم الآلي. VDE Bench يشكل أول معيار منهجي لتقييم أداء نماذج تحرير الصور على الوثائق ذات النصوص الكثيفة والثنائية اللغة، مما يمهد الطريق لمزيد من البحوث والتطوير في هذا المجال.
VDE Bench: ثورة في تحرير الوثائق البصرية وتعزيز قدرات نماذج تحرير الصور!
تقدم الدراسات الجديدة أداة VDE Bench لتقييم نماذج تحرير الصور، مما يتيح لها التفاعل مع وثائق بصرية معقدة وكتابات مزدحمة. هذا الابتكار يعد أول معايير شاملة تركز على تحرير نصوص ثنائية اللغة ومعقدة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
