في ظل التطور السريع لتكنولوجيا الذكاء الاصطناعي، بدأت وكالات الذكاء الاصطناعي المستقلة تلعب دوراً محورياً في مجالات التعلم الآلي (Machine Learning) سواء في الصناعة أو البحث. ومع تزايد الاعتماد على هذه الوكلاء، برزت الحاجة إلى وجود معايير موحدة لتقييم قدرتهم على تصميم وتنفيذ وتدريب نماذج من الصفر عبر مجالات متعددة.

تقديم **1GC-7RC** (*بطاقة رسومية واحدة: سبعة تحديات بحثية*) يمثل خطوة نحو هذا الهدف. يتضمن هذا المعيار سبعة مهام تعتمد على التعلم الآلي تشمل: نمذجة اللغة، تصنيف الصور، تقسيم دلالي، تعلم الرسوم البيانية، التنبؤ بالبيانات الجدولية، التنبؤ بالسلاسل الزمنية، وتصنيف النصوص.

كل مهمة تحتوي على نصوص محددة للبيانات والإعداد، بالإضافة إلى نص تدريب أساسي. يمكن للوكيل تعديل كود التدريب فقط، ولا يمكنه الوصول إلى أوزان مدربة مسبقًا (باستثناء حالة واحدة محددة للتقسيم الدلالي). يجب عليه إتمام كل مهمة في وقت محدد يتراوح بين 40-120 دقيقة وعلى بطاقة رسومية واحدة.

تم تقييم سبعة وكلاء لترميز الأكواد: خمسة تجارية (Claude Code مع Sonnet 4.6، Opus 4.6 و4.7، Codex CLI مع GPT 5.5، وOpenCode مع Qwen 3.6+) واثنان مفتوحا المصدر (OpenCode مع Kimi K2.5 وKimi K2.6). على مدار 5 تجارب لكل مجموعة من الوكلاء والمهام، تم الإبلاغ عن اختلافات بملحوظة في الأداء تكشف عن مستويات متباينة من المعرفة الضمنية في التعلم الآلي، والقدرة على التخطيط، وإدارة الوقت.

المعيار، والعناصر المتعلقة بالتقييم، متوفرة للجمهور على GitHub (https://github.com/Strolchii/1GC-7RC-Benchmark)، مما يسهل مقارنة الوكلاء في المستقبل. وبفضل تصميم معياره القابل للتعديل، يمكن توسيع هذا المعيار ليشمل مهام جديدة ومجالات مختلفة، بالإضافة إلى أنه يمكن استخدامه لدراسة إعدادات الوكلاء المتعددة، مما يجعله منصة مرنة للبحث المستقبلي حول وكلاء البحث المستقل.