تشكل الوثائق الهندسية، مثل دليل القواعد والمعايير الفنية، مصدرًا غنيًا بالمعلومات المتعددة الوسائط، بما في ذلك النصوص الكثيفة والجداول والرسوم التوضيحية، مما يجعل استرجاع البيانات منها تحديًا كبيرًا للنظم التقليدية. ولكن الآن، مع ظهور نظام MCERF (Multimodal ColPali Enhanced Retrieval and Reasoning Framework)، يبدو أن الأمور تتغير بشكل كبير.

يستند MCERF إلى إطار عمل **DesignQA**، الذي كان يعتمد سابقًا على استخراج النصوص الكاملة واسترجاع البيانات النصية فقط. وبهذا النظام الجديد، يتم دمج مستخرج متعدد الوسائط مع نموذج لغة كبير، مما يوفر إجابات دقيقة وفعالة على الأسئلة المطروحة من وثائق الهندسة.

من خلال استخدام نظام **ColPali**، يمكن للمستخدمين استرجاع المعلومات النصية والمرئية على حد سواء، وذلك بفضل استراتيجيات متعددة للاسترجاع والتفكير تتضمن:
1. **نموذج البحث الهجين** لاسترجاع القواعد القانونية بشكل صريح.
2. **دمج الرؤية مع النص** لطرح استفسارات قائمة على الرسوم والجدول.
3. **نموذج LLM للتفكير العميق** للإجابة على الأسئلة المعقدة متعددة الوسائط.
4. **اتخاذ قرار الاستمرارية الذاتية** لضمان استقرار الاستجابات.

تصميم هذا الإطار القابل لإعادة الاستخدام يعد بمثابة نموذج مستقبلي لأنظمة متعددة الوسائط، حيث أنه يمكن تعديله ليتناسب مع أي بنية أساسية للنموذج. كما أعلن الباحثون عن مقارنة نهجين للتوجيه: نهج التوجيه بحالة واحدة ونظام متعدد الوكلاء، يتيح لكل منهما تخصيص الاستفسارات إلى أفضل خطوط الإنتاج.

تظهر التقييمات على معيار **DesignQA** أن هذا النظام يحقق تحسينات ملحوظة، حيث ارتفعت دقة الإجابات بنسبة 41.1% مقارنة بأفضل النتائج السابقة لنموذج الاسترجاع المعزز (RAG). ما يشير إلى أن استرجاع المعلومات بالنظر إلى اللغة، جنبًا إلى جنب مع التفكير القائم على الموديول والتوجيه التكيفي، يمكن أن يمكّن من فهم المستندات بشكل أوسع في الاستخدامات الهندسية.

مع هذه الابتكارات، نقترب خطوة كبيرة نحو تحسين تقنيات الذكاء الاصطناعي في مجالات الهندسة وتسهيل الوصول إلى المعلومات المعقدة بشكل أكبر. هل أنتم متحمسون لهذا التطور في مجال الذكاء الاصطناعي؟ شاركونا آراءكم في التعليقات!