في ظل التطور المتسارع في مجال الذكاء الاصطناعي، تُستخدم معايير مرجعية (Benchmarks) لفهم قدرات نماذج اللغات الضخمة (Large Language Models) في مجالات متعددة. ولكن، تظل الدرجات الإجمالية لهذه المعايير محدودة في تقديم نظرة شاملة عن الفجوات في المهارات التراكمية لهذه النماذج وكيفية تحسينها. وبالتالي، جاء إطار تصميم المهام المدعوم (Scaffolded Task Design - STaD) ليوفر حلاً مبتكرًا.
إطار STaD يقوم بإنشاء تباينات محكومة من المهام المرجعية استنادًا إلى مفهوم الدعم التدريجي الذي يقدّم دعمًا منظمًا وزيادة تدريجية في كل مرحلة. بدلاً من النظر إلى الفشل بشكل فردي، يتيح هذا الإطار استكشاف سلوك النموذج بصورة منهجية وقابلة للتوسع عن طريق تحديد المهارات الاستدلالية التي تنقصه.
من خلال معاملة نموذج الذكاء الاصطناعي كصندوق أسود، كشفت تجاربنا على ستة نماذج بأحجام مختلفة عن نقاط فشل متعددة في ثلاثة معايير استدلالية، مما أبرز الفجوات الفريدة والتمييزية في مهارات كل نموذج.
هذه النتائج تُسهم في إثراء الفهم حول كيفية تصميم المهام بشكل يمكنها من تحسين الأداء وتقليل الفجوات في المهارات، وهو ما يفتح الأبواب لتطوير نماذج أكثر قوة وقدرة على الاستدلال.
اكتشاف الفجوات في مهارات نماذج الذكاء الاصطناعي: إطار تصميم المهام المدعوم STaD
يقدم البحث إطار تصميم المهام المدعوم STaD الذي يساعد في تحديد الفجوات في مهارات نماذج اللغات الضخمة (LLMs). يُبرز هذا الإطار نقاط الفشل الفريدة لكل نموذج من خلال فهم سلوكياته بشكل منهجي.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
