في عالم الذكاء الاصطناعي، لطالما كانت نماذج اللغات الضخمة (Large Language Models، LLMs) محط اهتمام كبير. ورغم تقدم هذه النماذج في اختبارات البحث، إلا أن المستخدمين ما زالوا يواجهون نتائج غير مرضية. هذه الظاهرة أظهرت وجود فجوة بين التقييمات والأداء الفعلي للنماذج خلال التفاعل الحقيقي.

تأتي VibeSearch لتلبي هذه الحاجة، حيث يتمثل مفهومها في تحسين تقييم البحث من خلال نموذج جديد يُعرف باسم VibeSearchBench. هذا المعيار الجديد يتكون من 200 مهمة ثنائية اللغة (الصينية والإنجليزية)، تُوزع عبر 20 مجالاً، وتتضمن نوعين: VibeSearch-Pro (المهنية) وVibeSearch-Daily (الحياة اليومية).

كل مهمة ترتبط بشخصية مستخدم وتستخدم قاعدة بيانات ممتعة بنمط غير محدد. يتم تقييم التجربة من خلال محاكٍ لتفاعلات المستخدم وإطار تقييم يتوافق مع الرسوم البيانية للمعلومات. لقد تم اختبار سبعة نماذج رائدة في إطار عمل ReAct و OpenClaw، والنتائج كانت مثيرة للقلق، حيث أظهرت أن جميع النماذج لا تزال غير كافية لتلبية توقعات VibeSearch، إذ سجلت أفضل نتيجة F1 تقدر بـ 30.30.

تسلط هذه النتائج الضوء على الحاجة الملحة لتطورات جذرية في التفكير ضمن السياقات الطويلة، واستخراج النوايا بشكل استباقي، وبناء المعرفة بشكل منظم. هل سنشهد المزيد من الابتكارات في مجال تقييم البحث لتحسين التجربة العامة للمستخدمين؟