تشهد قدرة نماذج اللغات الضخمة (Large Language Models) على أتمتة مهام الكمبيوتر زيادة ملحوظة، إلا أن قدرتها على التعامل مع برمجيات الإنتاجية المعقدة والمهنية لم تُختبر بشكل كافٍ حتى الآن. في ثنايا هذا البحث، نتناول أهمية أتمتة المكتب كبيئة مثالية لقياس كفاءة هذه النماذج في أتمتة الوثائق، حيث تتطلب تخطيطًا طويلاً دقيقًا، وضبطًا دقيقًا للمعايير، ودمجًا متنوعًا بين التطبيقات.

لاختبار هذه الكفاءة، تم تقديم تقييم مستند إلى امتحان التصنيف الوطني للكمبيوتر في الصين (National Computer Rank Examination - NCRE)، الذي يتضمن 200 مهمة شاملة تتعلق بتشغيل البرامج مثل Word وExcel وPowerPoint. كل مهمة تم تقييمها بناءً على معيار مكون من 100 نقطة وذلك من خلال 7,118 معيارًا قابلاً للتقييم الآلي. ويمثل معدل النقاط (Score Rate - SR) النسبة المئوية المتوسطة للنقاط المكتسبة عبر هذه المهام.

سُجّل اختبار لـ 7 نماذج لغوية متقدمة، وكانت النتائج مفاجئة حيث سجلت النماذج ذات الدورات الواحدة نسبة 36.6% كحد أقصى. ومع ذلك، استطاع نظام أكثر قوة يتضمن التغذية الراجعة لتنفيذ المهام، وإصلاحات تكرارية، وإمكانية الدخول إلى أدوات مكتبية أوسع، أن يحقق نسبة 68.8%، إلا أن النتائج لا تزال بعيدة عن النسبة المرجعية المجتمعية البالغة 95.5%.

تشير تجاربنا إلى أن تحقيق أتمتة دقيقة وموثوقة لوثائق المكتب لا يزال يمثل تحديًا كبيرًا أمام النماذج اللغوية وقدراتها على توليد الشيفرات. ماذا تعتقدون عن هذا التحدي؟ شاركونا في التعليقات.