في عالم الذكاء الاصطناعي المتطور باستمرار، تظهر تقنيات جديدة تسعى لتعزيز طريقة تفاعلنا مع التكنولوجيا. مؤخرًا، تم تقديم نموذج HiViG، الذي يعد قفزة نوعية في مجال وكالات استخدام الكمبيوتر (Computer Use Agents) بفضل دمجه بين الوعي التاريخي والتحقيق البصري.

تعتبر وكالات استخدام الكمبيوتر أدوات حيوية تستخدم لتحسين الأداء من خلال تقييم الإجراءات مسبقاً، وخاصة في بيئات واجهات المستخدم الرسومية (Graphical User Interface - GUI). إلا أن النماذج التقليدية كانت تواجه تحديات كبيرة؛ حيث كانت تركز غالباً على حلقات القرار قصيرة المدى، مما يعني أنها نادراً ما تتذكر الإجراءات السابقة، كما كانت تفتقد القدرة على تحديد الأخطاء البصرية مثل النقر على عناصر واجهة المستخدم الخاطئة.

لتجاوز هذه العقبات، يقدم نموذج HiViG إطاراً زمنياً يعتمد على الوعي التاريخي، مُصممًا حول نموذج ناقد متعدد الوسائط تم تدريبه على مسارات حقيقية لواجهات المستخدم. يقوم هذا النظام بتجميع التفاعلات السابقة في سجل مختصر، مما يسمح له بتقييم الإجراءات بطريقة تتماشى مع ما تم عرضه بصريًا.

عند اختبار النموذج، يقوم HiViG بدمج الناقد في حلقة القرار السياسة، مما يوفر سجلًا تاريخيًا للإجراءات الكبرى يُلخص إنجازات السياسة المنجزة، ويقدم نقدًا بصريًا يمكنه التحقق من النقاط الأساسية مقابل لقطة الشاشة الحالية بهدف الاعتراض على الأخطاء قبل تنفيذها.

تظهر النتائج عبر تجارب الويب، الهاتف المحمول، وسطح المكتب أن HiViG يتفوق باستمرار على الناقدين الحاليين، مع زيادة النجاح بمعدل 5.8% للنموذج Qwen3-VL-32B و9.0% لنموذج Gemini-3-Flash، مما يعكس قدرته الفائقة على التعميم عبر المنصات المختلفة. تكشف التحليلات أن سجل الإجراءات الكبرى يقلل من التخطيط قصير الأمد، بينما يقلل النقد البصري من الأخطاء أثناء التنفيذ، مع كون كلا العنصرين ضروريين لتوسيع النطاق عند التعامل مع المهام الطويلة الأمد في واجهات المستخدم الرسومية.

إن تطور HiViG يعكس تحولاً مثيرًا في كيفية تعاملنا مع القرارات داخل بيئات معقدة، مما يستدعي التفكير في كيف يمكن أن يغير هذا النموذج الطريقة التي نتفاعل بها مع التقنية. فما رأيكم في هذا التطور؟ شاركونا في التعليقات.