في ظل التطورات السريعة في مجال الذكاء الاصطناعي، ظهر اهتمام متزايد باستخدام وكلاء الذكاء الاصطناعي في تقييم الأبحاث العلمية. ومع ذلك، كانت المعايير الحالية تركز بشكل رئيسي على الجوانب الحاسوبية، حيث تختبر قدرة الوكلاء على تكرار نتائج الأبحاث عندما تتوفر لهم الكود والبيانات اللازمة. رغم أن هذه البيئة تعتبر أساسية، إلا أنها تعاني من نقص حاد في التصور حول توافر البيانات الجديدة الضرورية لعملية التكرار، ولا تتمكن من تقييم قدرة الوكلاء على تحديد الأبحاث غير القابلة للتكرار.
لذلك، قدمنا مقياس ReplicatorBench، وهو معيار شامل يتضمن بيانات تم التحقق منها من قبل بشر لمطالب بحثية قابلة وغير قابلة للتكرار في العلوم الاجتماعية والسلوكية. يهدف هذا المقياس إلى تقييم أداء وكلاء الذكاء الاصطناعي عبر ثلاث مراحل: (1) استخراج واسترجاع بيانات التكرار، (2) تصميم وتنفيذ التجارب الحاسوبية، و(3) تفسير النتائج. تدعم هذه المراحل اختبار قدرة الوكلاء على تقليد الأنشطة التي يقوم بها الباحثون البشريون في العالم الواقعي.
لإنشاء خط أساس لقدرات وكلاء الذكاء الاصطناعي، طورنا ReplicatorAgent، إطار عمل يحتوي على الأدوات اللازمة مثل البحث عبر الويب والتفاعل التكراري مع بيئات محصورة، لإنجاز المهام المطلوبة في ReplicatorBench. تم تقييم ReplicatorAgent عبر أربعة نماذج لغوية كبيرة (Large Language Models)، بالإضافة إلى خيارات تصميم مختلفة للغات البرمجة ومستويات الوصول إلى الكود. تكشف نتائجنا أن وكلاء الذكاء الاصطناعي الحاليين قادرون على تصميم وتنفيذ التجارب الحاسوبية بفعالية، ولكنهم يواجهون صعوبة في استرجاع الموارد، مثل البيانات الجديدة، الضرورية لتكرار المطالب.
جميع الكود والبيانات متاحة بشكل علني على [رابط GitHub].
مقياس ReplicatorBench: رصد أداء وكلاء الذكاء الاصطناعي في تكرار الأبحاث العلمية
يقدم مقياس ReplicatorBench معيارًا مبتكرًا لتقييم وكلاء الذكاء الاصطناعي في تكرار الأبحاث في العلوم الاجتماعية والسلوكية. هذا المقياس يساعد على فهم قدرات الذكاء الاصطناعي في محاكاة أنشطة الباحثين البشريين.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←# ReplicatorBench# ReplicatorAgent# AI Agents# Large Language Models# Research Replication# Social Sciences# Behavioral Sciences
جاري تحميل التفاعلات...
