في عالم Web3، يمثل الأمان والموثوقية أولوية قصوى، خاصة مع الاعتماد المتزايد على نماذج اللغات الضخمة (LLMs) لأداء مهام حيوية مثل تدقيق العقود الذكية وتحليلات التمويل اللامركزي. ولتلبية هذا الاحتياج، تم تقديم DMind Benchmark، وهو معيار شامل يهدف إلى تقييم كفاءة هذه النماذج بطريقة تتناسب مع التحديات الخاصة التي تطرحها بيئة Web3.

يحتوي DMind Benchmark على تسع مجالات فرعية، تتراوح من البنية التحتية إلى الاقتصاد الرمزي، ويجمع بين استرجاع المعرفة الموضوعية ومهام التفكير المعقدة التي تحاكي التحديات التشغيلية الحقيقية. وقد تم إجراء تقييم شامل لـ 31 نموذجاً رائداً، مما أتاح تحليل دقيق يعكس مستوى موثوقية النماذج في مجالات مختلفة.

تكشف نتائج التقييم عن وجود فجوة كبيرة؛ فبينما تظهر النماذج كفاءة في المفاهيم الأساسية، تعاني من نقاط ضعف كبيرة في مهام التفكير الرفيع مثل تدقيق الأمان. ومع ذلك، يوفر تحليل Pareto توجيهات لنشر فعّال من حيث التكلفة، مما يعكس الحاجة إلى التفكير الجاد بدلاً من التذكر السطحي.

منذ إصداره كمصدر مفتوح في أبريل 2025، حقق DMind Benchmark مكانة بارزة على منصة Hugging Face، حيث حصل على أكثر من 13 ألف تنزيل بحلول يونيو 2026. إن هذا المعيار يسعى إلى تعزيز الذكاء الاصطناعي الآمن والموثوق في مجال Web3 ويبرز أهمية تقييم النماذج بشكل شامل لضمان الفعالية والأمان المالي.