تتطلب التدفقات العملية الاحترافية في البرمجيات الإبداعية والهندسية التنسيق بين البشر والوكالات الذكية على مدى زمني طويل. وللأسف، معظم المعايير المتاحة حالياً تبسط هذه العمليات إلى مهام قصيرة وسهلة، مما يفوت على الباحثين الفرصة لفهم الكفاءة الحقيقية لهذه الأنظمة. لذلك يأتي مشروع DeskCraft كمبادرة جديدة تهدف إلى معالجة هذه الفجوة.
يستهدف DeskCraft تقييم وكالات سطح المكتب ذات المهام الطويلة، حيث ينظم المهام إلى تصنيف صعوبات متعددة المستويات، ويطلب منها تنفيذ أكثر من 50 خطوة. تشمل هذه المهام مختلف البرمجيات الإبداعية مثل التصميم، الفيديو، الصوت، وإبداعات 3D.
بالإضافة إلى ذلك، يقدمDeskCraft بروتوكول تفاعل رسمي يصف التعاون بين البشر والوكالات. يركز على التفاعلات الوسطية بعد تحديد المواطن الغامضة من قبل الوكيل والتدخلات المدفوعة من المستخدم، مع أخذ ملاحظات المستخدم بعد إشارات انتهاء العمليات. ومع تقييم 18 وكالة خاصة ومفتوحة المصدر عبر 538 مهمة، حقق نموذج GPT-5.4 نسبة 31.6% في المهام القياسية و27.6% في المهام التفاعلية، مما يكشف عن بعض العوائق المستمرة في تقديم تدفقات العمل الطويلة.
يمثل DeskCraft نقلة نوعية في تقييم وكالات الذكاء الاصطناعي، ويعزز فكرة التعاون الفعال بين البشر والآلات. لمزيد من المعلومات، يمكنكم زيارة الرابط. ما رأيكم في هذه التطورات المثيرة؟ دعونا نسمع آراءكم في التعليقات!
DeskCraft: الثورة الجديدة في تقييم وكيل سطح المكتب والتعاون الذكي مع البشر!
تمتاز DeskCraft بأنها أول معيار يجمع بين تدفقات العمل الاحترافية الطويلة الأمد والتعاون الفعّال بين البشر والذكاء الاصطناعي. يهدف المشروع لتقديم تجربة أكثر ديناميكية وتفاعلية في عالم البرمجيات الإبداعية والهندسية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
