في عصر تتزايد فيه الحاجة إلى الإجابات الدقيقة والسريعة عن الأسئلة المالية، كانت أنظمة الاسترجاع المعززة بالاسترجاع (RAG) تأمل في تقديم حلول مبتكرة. تعتمد هذه الأنظمة على تقسيم الوثائق إلى قطع صغيرة، ووضعها في فضاء متجه، واسترجاعها بناءً على البحث عن التشابه. ومع ذلك، فإن هذه الطريقة قد تعاني من إرباك جزئي عند التعامل مع وثائق متشابهة بشكل هيكلي مثل السجلات التنظيمية.
في مواجهة هذا التحدي، تم تقديم تقنية توجيه الملفات الدلالية (Semantic File Routing - SFR) التي تستخدم مخرجات نماذج اللغات الضخمة (Large Language Models - LLM) لتوجيه الاستفسارات إلى الوثائق الكاملة. وعلى الرغم من نجاحها في تقليل الفشل الكارثي، فإنها تفقد دقة الاسترجاع المستهدف.
أظهرت الدراسات على معيار FinDER، الذي يتضمن 1500 استفسار من خمس مجموعات، أن SFR تحقق متوسط درجات أعلى (6.45 مقابل 6.02) مع معدل فشل أقل (10.3% مقابل 22.5%). ومع ذلك، قدم الاسترجاع المستند إلى القطع (Chunk-Based Retrieval - CBR) إجابات مثالية أكثر (13.8% مقابل 8.5%).
لحل هذه المعضلة، تم اقتراح نموذج الاسترجاع المختلط (Hybrid Document-Routed Retrieval - HDRR)، الذي يعتمد على هيكلية من مرحلتين، بحيث يستخدم SFR كمرشح وثائق ثم يتبع ذلك استرجاع قائم على القطع مخصص للوثائق المحددة. أثبتت النتائج التجريبية أن HDRR تحقق أفضل أداء على جميع المعايير، إذ سجلت متوسط درجة 7.54 (أعلى بنسبة 25.2% من CBR و16.9% من SFR)، بمعدل فشل لا يتجاوز 6.4% ومعدل صحة بلغ 67.7% (+18.7 نقطة مئوية عن CBR).
بهذه الطريقة، تمكن HDRR من التغلب على معضلة الفشل وقلة الدقة، محققًا توازناً مثالياً عبر جميع المجموعات التجريبية.
هل أنتم متحمسون لرؤية كيف يمكن لتقنيات الذكاء الاصطناعي أن تغير شكل معالجة الوثائق المالية؟ شاركونا آرائكم في التعليقات.
حل معضلة القوة والدقة في استرجاع الوثائق المالية: الابتكار الثوري لنموذج الاسترجاع المختلط
تمثل الأنظمة المعززة بالاسترجاع (RAG) تقدماً كبيراً في مجال الإجابة عن أسئلة الوثائق المالية، ولكنها تواجه تحديات في الدقة والموثوقية. اكتشاف نموذج الاسترجاع المختلط (HDRR) يعد بحلاً مبتكراً وضع حداً لمعضلة قلة الدقة وتحسين الأداء.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
