في عالم الذكاء الاصطناعي، يقدم كل يوم ابتكارات جديدة، ولكن ما يثير الانتباه حقاً هو **إنفانت آيجنت-نكس (InfantAgent-Next)**، الوكيل العام الذي يغير الطريقة التي نتفاعل بها مع الحواسيب. يتميز هذا النظام بأنه قادر على التعامل مع البيانات بشكل متعدد الوسائط، بما في ذلك النصوص، الصور، الصوت، والفيديو.

يختلف **إنفانت آيجنت-نكس** عن الأنظمة الحالية التي تعتمد على بناء عمليات معقدة حول نموذج واحد كبير، أو تلك التي تقدم فقط تعددية في العمليات. إذ إن هذا الوكيل يقوم بدمج وكلاء يعتمدون على أدوات وآخرين نصيين ضمن هيكلية مرنة للغاية، مما يسمح للموديلات المختلفة بالتعاون لحل المهام المنفصلة خطوة بخطوة.

تظهر عمومية هذا النظام من خلال قدرته على تقييم المعايير الحقيقية القائمة على الرؤية (مثل OSWorld)، وأيضاً المعايير الأكثر عمومية أو التي تتطلب أدوات (مثل GAIA وSWE-Bench). وبشكل بارز، حقق إنفانت آيجنت-نكس دقة تبلغ 7.27% في اختبار OSWorld، متفوقاً بذلك على Claude-Computer-Use.

ومع توفر الشفرات وسكريبتات التقييم بشكل مفتوح عبر [رابط GitHub](https://github.com/bin123apple/InfantAgent)، فإن هذا التطور يعد خطوة هائلة نحو مستقبل أكثر تفاعلاً وذكاءً في التعامل مع التكنولوجيا.

ما رأيكم في هذا التطور؟ هل تعتقدون أن الوكلاء المتعددون الوسائط سيغيرون مستقبل الذكاء الاصطناعي؟ شاركونا في التعليقات!