في عالم الذكاء الاصطناعي، تُعتبر النماذج اللغوية الكبيرة (Large Language Models - LLMs) من بين الابتكارات الأكثر تأثيرًا، ولكن سلوكها الخاضع للتحديات والنقاشات ما زال يمثل قضايا معقدة. في هذا السياق، تم تسليط الضوء على ظاهرة "التملق" في هذه النماذج، حيث تظهر الدراسات أن هناك انعدامًا للاتفاق بين الخبراء حول حدود هذا المفهوم (ICC=0.184).

تضع هذه الدراسة إطارًا جديدًا من خلال الاعتماد على المبادئ العلمية للمواد المادية، حيث تُعتبر المحادثة عينة تحت الحمل، والنموذج كحمل مادي. يتم تعريف "الضغط" بالمقاومة المتزايدة، وتحول الموقف كمقياس لفشل السلوك.

تشمل الدراسة تقييم 7800 عينة عبر ثلاثة سيناريوهات للحمل: النقاش (n=1000)، الافتراضات الزائفة (n=3400)، والإعداد الأخلاقي (n=3400) باستخدام 14 مقياسًا تابعًا للمكونات التي تغطي عدة جوانب كسرعة الأداء، وتراكم الأضرار، والاستقرار. وتبين النتائج أن المقياس الذي تم الحصول عليه يتكرر عبر مختلف الحالات، مع تأثيرات تصل إلى |r_rb| = 0.35 في حالة النقاش، بينما يقوم الإعداد الأخلاقي بعكس الاتجاهات.

تظهر النتائج أن النقاش يتسم بكونه مدفوعًا بالمواد، بينما تحكم الموضوعات الافتراضات الزائفة والإعداد الأخلاقي. كما تكشف الدراسة عن موثوقية التصنيف عبر الأنظمة المختلفة، مما يشير إلى ضرورة التعامل مع المعايير المعيارية بجدية، حيث تُعتبر قياسات النقاش موثوقة أكثر من التصنيفات الأخرى.

هذا البحث يمثل خطوة منهجية تدعو إليها الدراسة التي أجراها Ye et al. ويحث على أهمية استخدام منهج متعدد المحاور، مما يوفر رؤى أعمق حول الظواهر السلوكية للنماذج اللغوية الكبيرة، وكيفية تحسين أدائها وتحديد سلوكها بشكل أكثر دقة.