في عالم الذكاء الاصطناعي (AI)، تتطلب الأبحاث اتخاذ قرارات قد يكون لها تأثير عميق قبل وجود الأدلة المستقبلية. لذا، تم تقديم معيار جديد يُعرف بـ ForeSci، وهو أداة مبتكرة لتقييم ما إذا كانت نماذج اللغات الضخمة (Large Language Models) يمكنها اتخاذ القرارات البحثية الاستشرافية استناداً إلى الأدلة التاريخية.
يتضمن ForeSci 500 مهمة موزعة عبر أربعة مجالات متسارعة في الذكاء الاصطناعي وأربعة فئات قرار مختلفة. كل مهمة مرتبطة بقاعدة معرفية غير متغيرة، حيث يتم إخفاء الأبحاث التي صدرت بعد القطع الزمني خلال عملية التوليد، وتستخدم فقط للتحقق من صحة النتائج. وتم تصميم المهام لتكون مناسبة لفهم توجيهات الأبحاث المستقبلية دون الاعتماد على توقعات عشوائية.
تتضمن نتائج هذا التقييم استخدام نماذج مختلفة مثل نماذج LLMs الأصلية وتكييفات وكالات البحث. وقد أظهر التقييم أن تنظيم الأدلة بشكل واضح يُحسن من إمكانية تتبع المعلومات والدعم الواقعي، لكن الفوائد تختلف بشكل كبير حسب نوع القرار المتخذ.
أحد الاكتشافات المثيرة للاهتمام كانت فصل الأدلة عن القرارات. وهذا يعني أن الوكلاء قد يستشهدون بأدلة ذات صلة بينما يتنبؤون بشكل خاطئ بمحتوى الأبحاث. من هنا، يمثل ForeSci تحولا في القدرة على تقييم وكالات الأبحاث كأنظمة اتخاذ قرارات، مما يفتح الأفق أمام تحسينات مستقبلية مدهشة في بحوث الذكاء الاصطناعي.
ForeSci: معيار جديد لتقييم وكلاء الذكاء الاصطناعي في اتخاذ قرارات بحثية استشرافية مذهلة!
تقدم ForeSci معياراً مبتكراً يقيم قدرة وكلاء نماذج اللغات الضخمة (LLMs) على اتخاذ قرارات بحثية استشرافية. هذه المنصة تتحدى الباحثين في مجالات الذكاء الاصطناعي المتسارعة وتعزز دقة اتخاذ القرارات.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
