في ظل التطور السريع لتكنولوجيا الذكاء الاصطناعي، بدأت [وكالات الذكاء الاصطناعي](/tag/[وكالات](/tag/وكالات)-الذكاء-الاصطناعي) المستقلة تلعب دوراً محورياً في مجالات [التعلم الآلي](/tag/[التعلم](/tag/التعلم)-الآلي) ([Machine Learning](/tag/machine-learning)) سواء في [الصناعة](/tag/الصناعة) أو [البحث](/tag/البحث). ومع تزايد الاعتماد على هذه الوكلاء، برزت الحاجة إلى وجود [معايير](/tag/معايير) موحدة لتقييم قدرتهم على [تصميم](/tag/تصميم) وتنفيذ وتدريب [نماذج](/tag/نماذج) من الصفر [عبر](/tag/عبر) مجالات متعددة.
تقديم **1GC-7RC** (*بطاقة رسومية واحدة: سبعة [تحديات](/tag/تحديات) بحثية*) يمثل خطوة [نحو](/tag/نحو) هذا الهدف. يتضمن هذا المعيار سبعة مهام تعتمد على [التعلم الآلي](/tag/[التعلم](/tag/التعلم)-الآلي) تشمل: [نمذجة](/tag/نمذجة) اللغة، [تصنيف](/tag/تصنيف) الصور، تقسيم دلالي، [تعلم](/tag/تعلم) الرسوم البيانية، [التنبؤ](/tag/التنبؤ) بالبيانات الجدولية، [التنبؤ](/tag/التنبؤ) بالسلاسل الزمنية، وتصنيف النصوص.
كل مهمة تحتوي على [نصوص](/tag/نصوص) محددة للبيانات والإعداد، بالإضافة إلى [نص](/tag/نص) [تدريب](/tag/تدريب) أساسي. يمكن للوكيل تعديل [كود](/tag/كود) [التدريب](/tag/التدريب) فقط، ولا يمكنه الوصول إلى أوزان مدربة مسبقًا (باستثناء حالة واحدة محددة للتقسيم الدلالي). يجب عليه إتمام كل مهمة في وقت محدد يتراوح بين 40-120 دقيقة وعلى بطاقة رسومية واحدة.
تم [تقييم](/tag/تقييم) سبعة [وكلاء](/tag/وكلاء) لترميز الأكواد: خمسة تجارية ([Claude Code](/tag/claude-code) مع [Sonnet](/tag/sonnet) 4.6، Opus 4.6 و4.7، [Codex](/tag/codex) [CLI](/tag/cli) مع [GPT](/tag/gpt) 5.5، وOpenCode مع [Qwen](/tag/qwen) 3.6+) واثنان مفتوحا المصدر (OpenCode مع Kimi K2.5 وKimi K2.6). على مدار 5 [تجارب](/tag/تجارب) لكل مجموعة من [الوكلاء](/tag/الوكلاء) والمهام، تم الإبلاغ عن اختلافات بملحوظة في [الأداء](/tag/الأداء) تكشف عن مستويات متباينة من [المعرفة](/tag/المعرفة) الضمنية في [التعلم](/tag/التعلم) الآلي، والقدرة على التخطيط، وإدارة الوقت.
المعيار، والعناصر المتعلقة بالتقييم، متوفرة للجمهور على [GitHub](/tag/github) (https://github.com/Strolchii/1GC-7RC-Benchmark)، مما يسهل مقارنة [الوكلاء](/tag/الوكلاء) في المستقبل. وبفضل [تصميم](/tag/تصميم) معياره القابل للتعديل، يمكن توسيع هذا المعيار ليشمل مهام جديدة ومجالات مختلفة، بالإضافة إلى أنه يمكن استخدامه لدراسة إعدادات [الوكلاء](/tag/الوكلاء) المتعددة، مما يجعله [منصة](/tag/منصة) مرنة للبحث المستقبلي حول [وكلاء](/tag/وكلاء) [البحث المستقل](/tag/[البحث](/tag/البحث)-المستقل).
تحديات البحث السبع: كيف يمكن لوكلاء الذكاء الاصطناعي القيام بعملك؟
تمثل 1GC-7RC منصة جديدة للتقييم الدقيق لوكلاء الذكاء الاصطناعي في مهام متعددة. تحدياتها السبع تغطي مجالات متنوعة مثل تصنيف الصور ونمذجة اللغة، مما يفتح آفاقاً جديدة للمستقبل.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
