في عالم الذكاء الاصطناعي، تصدرت نماذج الرؤية واللغة الكبيرة (Large-Vision Language Models - LVLMs) المشهد بتقديم حلول ثورية لفهم الصور والنصوص. ومع ذلك، فإن الأهداف العامة لتحسين هذه النماذج لا تزال تعاني من قيود تكبح فعالية الرؤية، مما يؤدي إلى تحيز لغوي وظواهر غير متوقعة مثل الهلوسة.

لمواجهة هذه التحديات، قدمت الطرق الحالية دعمًا إضافيًا من الخبراء في الجيوميتريا، ولكن يبدو أن هذا الدعم غالبًا ما يكون غير مناسب، حيث يركز بشكل مفرط على الدقة الهندسية دون النظر إلى الحاجة للحجج الصحيحة والمفيدة.

لذلك، نعلن عن ظهور شبكة التدفق الإدراكي (Perceptual Flow Network - PFlowNet)، التي تسعى إلى تجاوز هذا القيود التقليدية عن طريق توفير أساليب تفكير مريحة وأكثر فعالية. تبتعد PFlowNet عن ضرورة التوافق الصارم مع المساعدة الهندسية، مما يسهل عملية التفكير من خلال اعتماد طريقة ذاتية موجهة من الإدراك.

بالاعتماد على هذا الأساس، تقوم الشبكة بدمج مكافآت متعددة الأبعاد مع تشكيل هندسي مجاور عبر التعلم التعزيزي المتغير، مما يعزز السلوكيات الإدراكية الموجهة نحو التفكير، مع ضمان موثوقية مرئية.

تشير نتائج التجارب إلى أن PFlowNet لا يؤدي فقط إلى تحسينات ملحوظة في الأداء، بل يسجل أيضًا أرقاماً قياسية جديدة في معايير V* Bench (90.6%) وMME-RealWorld-lite (67.0%). إن نجاح هذه الشبكة يشكل خطوة مهمة في مجال الذكاء الاصطناعي وبالتأكيد سيفتح آفاقًا جديدة لفهم الصورة بلغة الطبيعة.