في عالم نماذج اللغات الضخمة (Large Language Models)، يُعتقد عادةً أن استخدام هياكل أكثر تعقيدًا يُحسن من موثوقية الأداء. لكن دراسة جديدة تسلط الضوء على قناعتنا السائدة بأن النماذج الأكثر قدرة تحتاج إلى توجيهات أقل تعقيدًا، لتكشف عن حقيقة مُفاجئة!

أجريت الدراسة عبر تجربة شاملة على مدى 432 جولة، حيث تم تقييم أداء ستة نماذج عبر أربعة مستويات من القدرة، مع ثلاثة أوضاع هيكلية مختلفة (خفيفة، متوازنة، صارمة) على نظام HEAT-24، المعتمد على 24 مهمة مع التحقق من العمل باستخدام Git.

النتائج جاءت لتكذّب الفرضيات السائدة بأن العلاقة بين قدرة النموذج وتعقيد هيكله تتبع نمطًا خطيًا عكسيًا. فقد أظهرت الدراسة أن نموذج المحادثة المتقدم (Gemini 2.5 Flash) واجه انخفاضًا في معدل النجاح بنسبة 29-38 نقطة مئوية مع زيادة تعقيد الهيكل.

وعلى نحو مدهش، النموذج (Qwen3.5-122B) المخصص للتفكير العميق أظهر أعلى معدل نجاح بنسبة 91.7% و أقل زمن استجابة مع استخدام هيكل صارم، مما يتعارض مع التوقعات السابقة.

وتستعرض الدراسة أيضًا طريقة جديدة لتصنيف الأخطاء توضح أن الأخطاء المتعلقة بعبور الأنماط تهيمن على أداء النماذج القادرة، في حين تسيطر الأخطاء المتعلقة بالملفات على النماذج ذات القدرة المنخفضة.

بهذا، تم توفير إرشادات عملية لاختيار الهياكل المتاحة حسب مستوى النموذج، مما يفتح الباب أمام مزيد من الأبحاث والتحسينات في عالم الذكاء الاصطناعي. هل تعتقد أن إنشاء هياكل أكثر تعقيدًا للنماذج الأكثر قدرة هو السبيل الأمثل أم أن العكس هو الصحيح؟ شاركونا آراءكم في التعليقات!