في عالم الذكاء الاصطناعي، تعتبر الهياكل أو "Scaffolds" أداة حاسمة لتحسين أداء النماذج. في دراسة جديدة نشرت على arXiv، تم تنفيذ مقارنة محكومة لتقييم تأثير ثلاثة أنواع من الهياكل: ReAct، وتصميم متعدد الوكلاء Planner-Actor-Rater، وهيكل Planner-then-executor، على خمسة نماذج من ثلاثة مزودين مختلفين. تم اختيار النماذج بما في ذلك Claude Opus 4.7، Sonnet 4.6، Haiku 4.5، Gemini 3.1 Pro Preview، وGPT-5.5.

ركزت الدراسة على مستويات التحقق GAIA 1 و2، حيث تم الحفاظ على المهام والشروط ثابتة مع إجراء ثلاث محاولات لكل سؤال. أظهرت النتائج أن اختيار الهيكل وحده يمكن أن يحرك دقة القياسات بمقدار يصل إلى 28 نقطة مئوية ضمن نموذج واحد. هذه النتائج تدعم الفرضية المسجلة مسبقًا بأن تغييرات الهيكل تؤدي إلى فجوات لا تقل عن 10 نقاط.

المفاجأة كانت في النتيجة التي أظهرت أن النماذج الأكثر قدرة ليست دائماً أقل حساسية لتغييرات الهيكل. فعلى الرغم من أن الأداء يتباين بشكل كبير حسب النموذج، إلا أن النموذج الأكثر قدرة من Anthropic حقق أكبر استفادة من الهياكل المنظمة أثناء المهام الأكثر تحدياً. كما أن الفائدة من وجود وكيل متعدد على مستوى اثنين لوحظت بشكل واضح في عائلة Anthropic فقط.

وأخيرًا، أكدت النتائج أن الأرقام الخاصة بالقدرات المستندة إلى هيكل واحد تعتبر تقديرات تعتمد على الهيكل، مما يعني أن الفجوة بين الإمكانيات الفعلية للنموذج وما يسمح به الهيكل ليست بالضرورة مضمونة في التقلص مع تحسين النماذج. هذه الدراسة تقدم رؤى مهمة حول كيفية تحسين أداء نماذج الذكاء الاصطناعي بشكل فعال.