تعد تقنية التعرف الضوئي على الحروف (OCR) أساسية في تقدم نماذج الرؤية واللغة (VLMs) وتوليد بيانات عالية الجودة لتدريب نماذج اللغات الضخمة (LLMs). رغم التطورات التي شهدتها دقة OCR، إلا أن النماذج الرائجة لا تزال تواجه تحديات في اكتشاف الأخطاء على مستوى العينات. هنا تأتي التقنية الجديدة *Consensus Entropy* (CE) لتغير المعادلة.
تعتمد *CE* على مبدأ بسيط، حيث تقيس مستويات اتفاق النماذج المختلفة من خلال قياس *الإنتروبيا* (entropy) لتقدير موثوقية المخرجات. الفكرة الأساسية هنا هي أن التوقعات الصحيحة تتقارب في فضاء المخرجات، بينما تبتعد الأخطاء. باستخدام هذه التقنية، تم تطوير إطار عمل خفيف الوزن يسمى *CE-OCR*، والذي يقوم بالتحقق من المخرجات بناءً على توافق الفرقاء، واختيار المخرجات المثلى، مما يعزز الفعالية من خلال التوجيه التكيفي.
أظهرت التجارب أن *Consensus Entropy* فعالة في التحقق من الجودة، حيث زادت نقاط F1 بنسبة مذهلة تصل إلى 42.1% مقارنة بنموذج VLM-as-Judge. بالإضافة إلى ذلك، تقدم *CE-OCR* مكاسب ملموسة في دقة OCR، متفوقة على الأساليب التقليدية في المعالجة من حيث التكلفة.
الأهم من ذلك، أن *Consensus Entropy* لا تتطلب أي تدريب أو إشراف، مما يسهل دمجها مع الأنظمة الحالية دون الحاجة إلى تعديلات معقدة. لمزيد من التفاصيل، يمكنكم زيارة الكود المصدري على [GitHub](https://github.com/Aslan-yulong/consensus-entropy).
ما رأيكم في هذا التطور المذهل في مجال الذكاء الاصطناعي؟ شاركونا أفكاركم في التعليقات!
إطلاق ثورة جديدة في التعرف الضوئي على الحروف: اكتشاف ثقة التوافق عبر تقنية Consensus Entropy!
تقنية Consensus Entropy (CE) تعيد تشكيل عالم التعرف الضوئي على الحروف (OCR) من خلال تحسين دقة المخرجات. اكتشف كيف تُستخدم هذه التقنية في تعزيز الأداء في نماذج اللغات الضخمة (LLMs)!
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
