تتزايد استخدامات نماذج اللغات الضخمة (Large Language Models) في المهام التي كانت سابقًا من اختصاص الباحثين المدربين، مثل توليد الفرضيات، اختيار المواصفات، وصياغة النتائج. ومع ذلك، يُظهر البحث الجديد أن موثوقية الأبحاث المدعومة بالذكاء الاصطناعي تعتمد على كيفية توزيع العمل الإدراكي بين البشر والآلات. لقد تم دراسة هذه المشكلة من خلال نموذج بحثي يُعرف باسم "البحث الاقتصادي بمشاركة الإنسان" (Human-in-the-Loop Economic Research - HLER).
تعتمد HLER على تصميم قرارات يعتمد على الالتزام المسبق، تسلسل القرارات، المساءلة، وتخصيص الانتباه. في تجربة محددة سلفًا مع 280 جولة بحثية شاملة، تبين أن النموذج غير المقيد أدى إلى فشل خطير في 72% من الجولات. ومع ذلك، باستخدام نفس النموذج الأساسي ونفس تقسيم الوكلاء، تم تقليل معدل الفشل إلى 16% من خلال فرض ثلاثة التزامات معمارية: حيث تقوم نماذج اللغات الضخمة بالتفكير ولكن لا تنفذ الأعمال البيانية، وتعالج البيانات والتقديرات بشكل محدد، وتربط ثلاث بوابات قرار بشرية سير العمل.
اختبارات Fisher's الدقيقة أظهرت أن معدلات الفشل ليست متساوية بمعنى دلالة إحصائية (p<0.001). كانت المكاسب في الموثوقية أكبر على مجموعة البيانات الممثلة بشكل أقل، وهي سجل سكاني من سلالة تشينغ، وهو ما يتماشى مع نموذج إنتاج قائم على المهام مع جودة مخرجات موزعة بشكل فرشي. تشير دراسة تحتوي على 80 جولة إقصاء إلى أن الحوسبة المحددة وبوابات الإنسان تسهم بشكل مستقل، مع دليل استكشافي على التكامل.
نُفسر HLER كحزام بحثي وليس كعالم مستقل يعمل بالذكاء الاصطناعي: حيث تقلل بشكل حاد من حالات الفشل، وتظهر نقاط الضعف المتبقية بشكل أوضح، وتمنع المطالبات غير الموثوقة من التقدم كإنتاجات جاهزة للنشر.
لماذا يُعد إشراف الإنسان المفتاح لنجاح الأبحاث المعتمدة على الذكاء الاصطناعي؟
أثبتت دراسة حديثة أن إشراف البشر يُعزز موثوقية الأبحاث المدعومة بالذكاء الاصطناعي. الأنظمة القائمة على البشر والآلات تُظهر نتائج مثيرة كحلول لتحسين جودة البحث العلمي.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
