في عالم الذكاء الاصطناعي، تعد عملية تحرير الصور باستخدام التعليمات الدقيقة من التحديات الكبيرة. بينت الأبحاث الحديثة أن النماذج المعتمدة على الرؤية واللغة (Vision-Language Models) لا تزال تعاني من عجز في تقديم أوصاف دقيقة للتحولات البصرية بين الصور. ومع ذلك، ابتكرت مجموعة من العلماء تقنية جديدة تُدعى EditCaption، التي تهدف إلى تحسين هذه العمليات بشكل جذري.

تعتمد EditCaption على إنشاء مجموعة بيانات تضم 100,000 تعليمات تحت إشراف بشري، مما يضمن تلبية احتياجات المستخدمين بدقة عالية. من خلال تصفية التعليمات باستخدام تقنية EditScore، تم تحسين جودة التعليمات وبناء قاعدة بيانات غنية بالمعلومات.

ليس ذلك فحسب، بل تم أيضًا جمع 10,000 زوج من التعليمات ذات التفضيل البشري، حيث يتم تصنيف كل تعليم مرفوض حسب نوع الخطأ وشدته، مما يسمح بتطوير نموذج HAE-DPO - بيئة تدريب تتكيف مع مستوى التحديات التي تواجهها النماذج، مما يعزز دقة النتائج النهائية.

أظهرت التجارب أن نموذج EditCaption الذي يحتوي على 235 مليار معلمة قد حقق نتائج مبهرة، حيث نال نقاطًا عالية على ثلاثة معايير مختلفة، متفوقًا بذلك على الأنظمة السابقة مثل Gemini-3-Pro. كما أكدت التقييمات البشرية انخفاض معدلات الأخطاء الحادة بشكل ملحوظ، مما يشير إلى أن EditCaption قد يكون الحل الذي انتظره الكثيرون في مجال تحرير الصور بالذكاء الاصطناعي.

التكنولوجيا تتقدم، ولا تزال الفرص غير محدودة. هل أنتم مستعدون للتغيير؟ شاركونا آراءكم حول EditCaption في التعليقات!