في عالم الذكاء الاصطناعي، يتمتع النماذج الرؤية اللغوية (Vision-Language Models - VLMs) بقدرات متميزة في التفكير البصري، لكنها غالباً ما تواجه قيوداً بسبب طابعها النصي، مما يؤثر سلباً على قدرتها في اتخاذ قرارات متعمقة حول مشاهد بصرية معقدة. ولذلك، قدّم الباحثون نموذجًا جديداً يحمل اسم InterSketch، والذي يعمل على تعزيز القدرات التفاعلية للنماذج من خلال دمج عملية التفكير النصي مع الرسومات التوضيحية.

يعتمد InterSketch على آليتين أساسيّتين: التصحيح الذاتي، وما يُعرف بنظام المكافآت المتدرجة، مما يسمح له بتطوير سلسلة من الرسوم التوضيحية أثناء عملية التفكير. هذه الرسوم التوضيحية لا تُستخدم فقط كمرجع، بل تندمج بشكل فعّال مع عمليات التفكير النصي، مما يمكّن النموذج من فهم المشاهد بطريقة أكثر عمقاً وفعالية.

في المرحلة الأولى من التدريب، تم تصميم مجموعة بيانات عالية الجودة تضم أمثلة من التفكير النصي والمرئي المتداخل، مع إدخال آلية للتفكير العاكس مما ساعد النموذج على تحسين قدراته في التفكير المتداخل والتصحيح الذاتي عبر عدة جولات. وبعدها، في مرحلة التعلم المعزز، تم تقديم نظام المكافآت المتدرجة للحد من نقص إشارات المكافأة، الذي قد يواجهه النموذج في مهام التفكير البصري على المدى الطويل.

أثبتت التجارب العديدة التي أُجريت على معايير التفكير البصري فعالية InterSketch، حيث تجاوزت نتائجه تلك الخاصة بنماذج احترافية أخرى مثل Gemini-3-Pro. إذاً، مع كل ما يقدمه InterSketch، يبدو أن المستقبل واعدًا في عالم الذكاء الاصطناعي!