في ظل الزيادة الهائلة في الأدبيات الأكاديمية، يصبح من الصعب بشكل متزايد خلق استبيانات علمية يدوياً. بينما تظهر نماذج اللغات الضخمة (Large Language Models) وعداً كبيراً لأتمتة هذه العملية، فإن نقص المعايير القياسية وبروتوكولات التقييم يشكل عقبة حقيقية أمام التقدم في هذا المجال. لذلك، تم تقديم مشروع 'سورج' (SurGE) كإطار جديد لتوليد الاستبيانات العلمية في علوم الحاسوب.

يتكون سورج من مجموعتين رئيسيتين: الأولى هي مجموعة من الحالات الاختبارية، حيث تحتوي كل حالة على وصف لموضوع ما، استبيان مكتوب بواسطة خبراء، ومراجع موسعة. أما المجموعة الثانية فهي تحتوي على مجموعة أكاديمية ضخمة تضم أكثر من مليون ورقة بحثية.

علاوة على ذلك، يقترح سورج إطاراً تقييمياً آلياً يقيس جودة الاستبيانات المنتجة عبر أربعة أبعاد: الشمولية، دقة الاقتباسات، التنظيم الهيكلي، وجودة المحتوى. من خلال تقييم طرق مختلفة تعتمد على نماذج اللغات الضخمة، تكشف النتائج عن فجوة كبيرة في الأداء، مما يدل على أن حتى الأطر المتقدمة لا تزال تواجه صعوبات مع تعقيدات توليد الاستبيانات. وبالتالي، يبرز سورج الحاجة الماسة إلى مزيد من الأبحاث في هذا المجال.

أخيراً، تم إتاحة جميع الأكواد والبيانات والنماذج للعامة، مما يوفر فرصة للباحثين والمطورين لاستكشاف وتحسين هذه الأداة المتطورة في بيئاتهم الأكاديمية.