في ظل التطور المتسارع في مجال الذكاء الاصطناعي، تُستخدم معايير مرجعية (Benchmarks) لفهم قدرات نماذج اللغات الضخمة (Large Language Models) في مجالات متعددة. ولكن، تظل الدرجات الإجمالية لهذه المعايير محدودة في تقديم نظرة شاملة عن الفجوات في المهارات التراكمية لهذه النماذج وكيفية تحسينها. وبالتالي، جاء إطار تصميم المهام المدعوم (Scaffolded Task Design - STaD) ليوفر حلاً مبتكرًا.

إطار STaD يقوم بإنشاء تباينات محكومة من المهام المرجعية استنادًا إلى مفهوم الدعم التدريجي الذي يقدّم دعمًا منظمًا وزيادة تدريجية في كل مرحلة. بدلاً من النظر إلى الفشل بشكل فردي، يتيح هذا الإطار استكشاف سلوك النموذج بصورة منهجية وقابلة للتوسع عن طريق تحديد المهارات الاستدلالية التي تنقصه.

من خلال معاملة نموذج الذكاء الاصطناعي كصندوق أسود، كشفت تجاربنا على ستة نماذج بأحجام مختلفة عن نقاط فشل متعددة في ثلاثة معايير استدلالية، مما أبرز الفجوات الفريدة والتمييزية في مهارات كل نموذج.

هذه النتائج تُسهم في إثراء الفهم حول كيفية تصميم المهام بشكل يمكنها من تحسين الأداء وتقليل الفجوات في المهارات، وهو ما يفتح الأبواب لتطوير نماذج أكثر قوة وقدرة على الاستدلال.