تعتبر نماذج الرؤية واللغة الكبيرة (Large Vision-Language Models - LVLMs) من أبرز التطورات في مجال الذكاء الاصطناعي، ولكنها تواجه تحديًا كبيرًا يتمثل في الهلاوس، حيث يكون المحتوى الناتج غير متسق مع الصورة المدخلة. هذه المشكلة تضعف من فعالية تلك النماذج، وتجعل من الصعب الاعتماد عليها في التطبيقات العملية.

في دراسة حديثة، تم تقديم طريقة جديدة تُعرف بتشفير الاتساق بين الطبقات عبر التجميع (Decoding with Inter-layer Consistency via Layer Aggregation - DCLA). هذه الطريقة لا تحتاج إلى تدريب أو تعديل للنماذج، مما يجعلها حلاً عملياً وسريعًا. يعتمد DCLA على إنشاء مرجع دلالي ديناميكي من خلال تجميع التمثيلات من الطبقات السابقة، مما يساعد في تصحيح الطبقات ذات الانحراف الدلالي.

أظهرت التجارب التي أجريت على سبعة نماذج LVLM مختلفة وضمن بيئات قياس متعددة أن DCLA تفوقت بشكل ملموس، حيث سجلت زيادة بمعدل 28.58 نقطة في معيار LLaVA1.5-7B و42.6 نقطة في Qwen2.5-VL. فضلاً عن ذلك، شهدت دقة معيار POPE تحسنًا بنسبة 2.74 نقطة مئوية في أقوى الإعدادات.

هذا التطور يعد بمثابة خطوة كبيرة نحو تحسين أداء نماذج الرؤية واللغة، ويمكن أن يحدث تأثيرًا واسع النطاق في كيفية استخدام هذه النماذج في المستقبل. هل تتخيلون التطبيقات الممكنة لهذه التقنية؟ شاركونا آراءكم في التعليقات!