في عالم [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي) المتطور، تمثل [المعايير الجديدة](/tag/[المعايير](/tag/المعايير)-الجديدة) [أداة](/tag/أداة) رئيسية لتقييم فعالية [نماذج اللغة](/tag/[نماذج](/tag/نماذج)-[اللغة](/tag/اللغة)). أعلن الباحثون مؤخرًا عن إطلاق معيار DeepWeb-Bench، والذي يهدف إلى تعزيز [تقييم](/tag/تقييم) [البحث العميق](/tag/[البحث](/tag/البحث)-العميق) من خلال توفير [تحديات](/tag/تحديات) أكثر تعقيدًا من تلك الموجودة حاليًا. يتطلب هذا المعيار الجديد [نماذج اللغة](/tag/[نماذج](/tag/نماذج)-[اللغة](/tag/اللغة)) الغربية (frontier language models) أن تستند إلى أدلة واسعة النطاق وأن تكون قادرة على توفير [استنتاجات](/tag/استنتاجات) متعددة الخطوات.
تستند صعوبة [DeepWeb-Bench](/tag/deepweb-bench) إلى ثلاثة [خصائص](/tag/خصائص) رئيسية: جمع [الأدلة](/tag/الأدلة) الضخمة، المصالحة بين المصادر المختلفة، وعمليات [الاستنتاج](/tag/الاستنتاج) الطويلة الأمد. وتم [تصنيف](/tag/تصنيف) هذه الصعوبات إلى أربع مجموعات من القدرات: [استرجاع](/tag/استرجاع) (Retrieval)، واستنتاج (Derivation)، وتفكير (Reasoning)، ومعايرة ([Calibration](/tag/calibration)). ومع ذلك، أظهرت النتائج أن الفشل في الاسترجاع لا يشكل عنق الزجاجة، حيث أن [الأخطاء](/tag/الأخطاء) التي تتعلق بالفشل في [الاستنتاج](/tag/الاستنتاج) والمعايرة بلغت أكثر من 70%.
حيث أجرينا تقييمًا لـ [DeepWeb-Bench](/tag/deepweb-bench) [عبر](/tag/عبر) تسعة [نماذج](/tag/نماذج) رائدة واكتشفنا [حقائق مثيرة](/tag/حقائق-مثيرة):
1. [أخطاء](/tag/أخطاء) الاسترجاع تمثل فقط 12-14% منها.
2. [النماذج](/tag/النماذج) القوية والضعيفة تفشل بطرق نوعية مختلفة.
3. تعرضت [النماذج](/tag/النماذج) لتخصص حقيقي [عبر](/tag/عبر) مجالات مختلفة، حيث أظهرت نتائج غير متوافقة بين [النماذج](/tag/النماذج).
إن إصدار هذا المعيار العام يتضمن البيانات، والمعايير، وكود التقييم، مما يتيح للمجتمع البحثي إمكانية [التدقيق](/tag/التدقيق) بسهولة أكبر في النتائج المستخلصة.
DeepWeb-Bench: معيار بحث عميق جديد يغير قواعد اللعبة!
تقدم DeepWeb-Bench معيارًا جديدًا للبحث العميق يتطلب جمع أدلة ضخمة واستنتاجات معقدة. يهدف إلى تحسين تقييم نماذج اللغة القوية من خلال قياس الأداء بشكل شامل ودقيق.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
