أصبح الذكاء الاصطناعي أحد الأدوات الرئيسية في تطوير حلول فعالة للإجابة على أسئلة متعددة التحديات، ومن بين النماذج الحديثة التي أثبتت كفاءتها هو نموذج “الإنتاج المدعوم بالاسترجاع التكراري” (Iterative Retrieval-Augmented Generation - iRAG). هذا النموذج، وإن كان قد حقق نجاحات ملحوظة، إلا أنه واجه تحديين رئيسيين:
1. **الإسناد الخشن (Coarse-grained attribution)**: حيث يضطر المستخدمون إلى البحث يدويًا عن الأدلة في وثائق طويلة استنادًا إلى اقتباسات نصية غامضة.
2. **فقدان المعنى البصري (Visual semantic loss)**: عندما يتم تحويل وثائق غنية بصريًا (مثل الشرائح وملفات PDF التي تحتوي على مخططات) إلى نص، مما يفقد تلك المعلومات البصرية الهامة التي تعتمد عليها عملية التفكير.
لجسر هذه الفجوة، تم تقديم نظام **Chain of Evidence (CoE)**، وهو إطار إسناد بصري لا يعتمد على نوع من المسترجع، والذي يستفيد من نماذج الرؤية واللغة (Vision-Language Models) للتفكير مباشرةً على لقطات الشاشة للوثائق المسترجعة.
هذا النظام يتيح سحب معلومات أكثر دقة من الوثائق، حيث يقوم بتحديد مناطق محددة بصريًا، ويوضح سلسلة التفكير بشكل واضح داخل مجموعة الوثائق المسترجعة.
تم تقييم نظام CoE على معيارين مختلفين: **Wiki-CoE**، مجموعة بيانات كبيرة من صفحات الويب الهيكلية، و**SlideVQA**، وهي مجموعة بيانات تحدٍّ تحتوي على شرائح تقديمية تضم مخططات معقدة وتصميمات حرة.
أثبتت التجارب أن النموذج Qwen3-VL-8B-Instruct المعدل قد حقق أداءً قويًا، متفوقًا بشكل كبير على النماذج التي تعتمد فقط على النصوص في سيناريوهات تتطلب فهمًا لتخطيط المعلومات البصرية. مع هذا الابتكار، أصبح لدينا حل لا يعتمد على نوع المسترجع للذكاء الاصطناعي مع إمكانية تفسير دقيق على مستوى البكسل.
للاستزادة، يمكنكم الاطلاع على الكود الخاص بالنموذج عبر زيارة: [رابط الكود](https://github.com/PeiYangLiu/CoE.git).
ما رأيكم في قدرة الذكاء الاصطناعي على معالجة المعلومات المرئية بشكل أفضل؟ شاركونا آراءكم في التعليقات!
ثورة بصرية في الذكاء الاصطناعي: كيف تتيح Chain of Evidence الفهم المرئي الدقيق للمعلومات
مع تقديم نظام Chain of Evidence (CoE)، يتمكن الذكاء الاصطناعي من معالجة البيانات المرئية بجودة عالية، مما يحل عقبة الفهم الدقيق للمعلومات المعقدة في الوثائق. هذا التطور يعد نقلة نوعية في قدرة الأنظمة على استخدام المعلومات البصرية بفعالية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
