في عالم الذكاء الاصطناعي، تبرز نماذج الرؤية واللغة (Vision-Language Models - VLMs) كأدوات قوية تتمتع بقدرات استثنائية، خاصة فيما يتعلق بكشف الانحرافات (Anomaly Detection - AD). لكن، هل تساءلت يومًا عن كيفية عمل هذه النماذج بالضبط؟ في دراسة جديدة، تم تحدي الفرضيات التقليدية حول كيفية اكتساب المعرفة المتعلقة بالانحرافات.

غالبًا ما يُنظر إلى VLMs على أنها صناديق سوداء، حيث يُفترض أن المعرفة المتعلقة بالانحرافات يتم الحصول عليها من خلال موائمات خارجية أو قواعد بيانات للذاكرة. ومع ذلك، يطرح الباحثون في هذه الدراسة فرضية مثيرة للجدل: توجد المعرفة المتعلقة بالانحرافات بشكل كامنة داخل النماذج المدربة مسبقًا، لكنها لا تُفعّل بالشكل المطلوب.

تستند هذه الفرضية إلى فكرة أن المعرفة مركزّة في مجموعة فرعية نادرة من الأعصاب الحساسة للانحرافات. وللتحقق من صحة هذه النظرية، تم اقتراح إطار عمل مبتكر يُسمى استخراج المعرفة الكامنة للانحراف (Latent Anomaly Knowledge Excavation - LAKE). يعتمد هذا الإطار على تفعيل هذه الإشارات العصبية الحرجة باستخدام مجموعة بسيطة من العينات الطبيعية ودون الحاجة إلى تدريب إضافي.

من خلال عزل هذه الأعصاب الحساسة، يبني LAKE تمثيلًا مختصرًا يدمج بين الانحرافات الهيكلية البصرية والتفعيل الدلالي عبر الأنماط المختلفة، مما يسهل فهم الأنماط المعقدة. وقد أظهرت التجارب الواسعة على معايير الكشف عن الانحرافات الصناعية أن LAKE يحقق أداءً رائدًا في هذا المجال، مع تقديم قدرة تفسيرية على مستوى الأعصاب.

في النهاية، يدعو هذا العمل إلى إعادة تعريف الكشف عن الانحرافات باعتباره عملية تفعيل مستهدفة للمعرفة المدربة مسبقًا، بدلاً من كونه عملية اكتساب لمهمة تالية. هذا التوجه الجديد قد يُحدث ثورة في طرق استخدام وتطبيق نماذج الرؤية واللغة في المستقبل.