في عالم الذكاء الاصطناعي المتطور، يطرح سؤال مثير للغاية: ماذا لو تم استبدال أعضاء هيئة المحلفين في الفيلم الكلاسيكي '12 رجل غاضب' (12 Angry Men) بنماذج لغة ضخمة (Large Language Models)؟! ماذا ستكون النتائج عندما تتنافس هذه النماذج في إطار نقاش قانوني معقد؟

خصصت دراسة حديثة لاختبار هذا السيناريو الفريد عبر استخدام نظام متعدد الوكلاء (multi-agent framework)، حيث تم استخدام اثني عشر نموذجًا محوريًا، كل واحد منهم يمثل شخصية من الفيلم، للتداول حول قضية القتل المعقدة في الفيلم. تم اختبار نموذجين يمثلان نهايتي طيف تدريب تعزيز التعلم البشري (RLHF): نموذج GPT-4o (مغلق المصدر وترتيب صارم) ونموذج Llama-4-Scout (مفتوح الوزن وترتيب أخف).

توزعت التجارب على ثلاثة شروط مختلفة: الحالة الأساسية، الطلب المنفتح، وعدم وجود تصويت أولي، مما أتاح للباحثين فحص كيفية اختلاف سلوك النماذج. أظهرت النتائج أن سبعة عشر من أصل ثمانية عشر تجربة انتهت بجورٍ معلق (حالة عدم إمكانية الوصول إلى قرار موحد)، مما يشير إلى أن عملية الإرساء (anchoring) تمثل الطريقة الأكثر فشلًا لنماذج اللغة العملاقة في هذه السياقات.

وعند تحليل الديناميات الداخلية للنماذج، كان نموذج GPT-4o يحقق متوسط 1.0 تغيير في التصويت لكل تجربة عبر جميع الشروط، بينما كان نموذج Llama-4-Scout يتراوح ما بين 2.0 (في الحالة الأساسية) إلى 6.0 (عند الطلب المنفتح)، وكان النموذج الوحيد الذي توصل إلى حكم "غير مذنب" (NOT GUILTY) في إحدى التجارب. يتضح أن التعليمات المفتوحة تُفهم من قبل نموذج Llama بينما يتم تجاهلها من قبل GPT-4o.

تكشف هذه الفروقات عن أن شدة تدريب RLHF هي العامل المحدد الرئيسي للمرونة في اتخاذ القرارات الجماعية، وليس قدرة النموذج نفسه. إذًا، هل الأسلوب المتبع في التدريب هو ما يجعل نماذج الذكاء الاصطناعي أكثر قربًا من الطريقة التي يتخذ بها البشر قراراتهم؟ يعد هذا البحث بمثابة دراسة استكشافية تعزز من فهم كيفية تقييم لجان المحلفين التي تتكون من أنظمة ذكاء اصطناعي وتحفز النقاش حول جدوى هذا الجيل من النماذج في التطبيقات الاجتماعية.

فما رأيكم في هذه النتائج المدهشة؟ هل تعتقدون أن الذكاء الاصطناعي يمكن أن يحاكي تفكير البشر في المستقبل؟ شاركونا في التعليقات!