في عصر يتسم بتقدم الذكاء الاصطناعي وظهور نماذج لغوية متطورة، أعلن الباحثون عن إطلاق معيار جديد يُعرف باسم DeFAb (Defeasible Abduction Benchmark)، الذي يعد خطوة ثورية في اختبار مدى دقة الاستدلالات المنطقية في النماذج الأساسية (Foundation Models).
يهدف DeFAb إلى تقديم معيار يمكن الاعتماد عليه لقياس قدرة الأنظمة الذكية على إنشاء فرضيات توضّح الأنماط أو الشذوذات، بحيث تتجاوز القواعد التقليدية، دون الإخلال بالنظريات القائمة. وفقاً للبيانات المتاحة، فإن أداة حل المنطق القائم على القواعد استطاعت أن تحل جميع الحالات في هذا المعيار خلال أقل من 50 ميكروثانية بدقة 100%.
بينما النماذج اللغوية الرائدة لم تتمكن من تجاوز نسبة 65% في أفضل الحالات، وانخفضت دقتها إلى 23.5% عند التقييم تحت ظروف صعبة.
يعتمد DeFAb على تحويل أربعين عاماً من قواعد البيانات المعروفة إلى حالات قائمة رسمياً تستخدم للاختبار، مما يجعله نموذجاً يعتمد على الدقة والمنطق. يتمتع المعيار بإطار عمل يدمج بين الهياكل الضريبية (مثل OpenCyc وYAGO وWikidata) مع رسوم بيانية لخصائص السلوك (ConceptNet وUMLS) لإنتاج أكثر من 372,648 حالة دقيقة مبنية على 33.75 مليون قاعدة مادية.
ومع ذلك، حتى وإن كانت دقة النموذج الرائد المستند إلى DeFAb تتراوح بين 7.8 و23.5%، تبقى الفجوة في قدرة النماذج على استيعاب الاستدلال القابل للتراجع واضحة، مما يسلط الضوء على التحديات التي لا تزال قائمة في هذا المجال.
ولزيادة دقة هذه النتائج، تم إصدار DeFAb-Hard، وهو إصدار يتضمن 235 حالة صعبة، حيث حقق النموذج الأفضل نجاحاً بنسبة 53.3% مقارنةً بالدقة الكاملة للأدوات الرمزية.
في النهاية، يفتح DeFAb آفاق جديدة لفهم الذكاء الاصطناعي ودوره في المنطق والابتكار.
ما رأيكم في هذا التطور المثير؟ شاركونا في التعليقات.
DeFAb: معيار قابل للتحقق للحد من الغموض في نماذج الأساس
تمثل DeFAb طفرة جديدة في عالم الذكاء الاصطناعي، حيث تقدم معياراً قابلاً للتحقق من دقة الاستدلالات المنطقية في نماذج الأساس. أسلوبها الفريد في إنشاء الفرضيات يعزز من قدرتنا على فهم الأنماط وتجاوز القواعد التقليدية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
