في عالم الذكاء الاصطناعي وتكنولوجيا الرؤية، تعتبر نماذج الرؤية واللغة (Vision-Language Models - VLMs) من الأحدث والأكثر تقدمًا. تعتمد هذه النماذج على تسلسلات طويلة من الرموز البصرية لتحقيق فهم بصري عميق. ولكن، هل تساءلت يومًا عن تكلفة هذه العمليات على مستوى الحوسبة والذاكرة؟
تتطرق العديد من طرق تقليل الرموز الحالية إلى نموذج تقييم ثابت، حيث تُعطى كل رمز بصري درجة أهمية ويتم الاحتفاظ بجزء ثابت من الرموز ذات الدرجات الأعلى. ومع ذلك، يظهر بحث جديد أنه يوجد خلل في هذا النهج. يوضح أن تداخل الانتباه يمكن أن يُشوه تقييم الأهمية، وأن الصورة الزائدة والنماذج المعتمدة على الاستفسار تجعل استخدام ميزانيات رموز ثابتة غير موثوق.
هنا يأتي دور **OccamToken**، إطار عمل مبتكر لا يحتاج إلى تدريب مسبق ويعتمد على مفهوم اختبار الأدلة النسبية المرتكزة على السجل. بدلاً من البحث عن الرموز البصرية التي تخدم أهمية عالمية، يُقيّم **OccamToken** ما إذا كانت الرموز الفوتوغرافية توفر معلومات إضافية تتجاوز مرجعًا مستندًا إلى السجل.
تكمن الفكرة الرئيسية في أن رموز السجل تمتص بشكل طبيعي أنماط الانتباه القليل المعلومات، مما يجعلها مرجعًا مستقرًا لتحديد الأدلة البصرية الضرورية. بناءً على هذا المبدأ، يقوم **OccamToken** بإجراء تقليل زوائد الصورة وملاءمة الاستفسار من خلال عتبات ديناميكية مستمدة من انتباه السجل.
أظهر **OccamToken** تحسينًا في توازن الدقة والكفاءة عبر نماذج مختلفة مثل LLaVA-NeXT وLLaVA-v1.5 وQwen3-VL، حيث تمكن من تقليل 2880 رمز بصري إلى حوالي 40 مع الحفاظ على أكثر من 93% من الدقة الأصلية. يجعل هذا من الممكن الضغط على الرموز البصرية بشكل مستقر حتى في ميزانية الاحفاظ المتطرفة التي تصل إلى 1.4% فقط.
إن **OccamToken** ليس مجرد تحسين تقني، بل هو خطوة نحو مستقبل أكثر كفاءة في التعامل مع البيانات المرئية. ما رأيكم في هذا التطور الثوري؟ شاركونا في التعليقات.
اكتشاف الجيل الجديد من نماذج الرؤية واللغة: OccamToken يغير قواعد اللعبة!
يقدم OccamToken إطارًا مبتكرًا لتقليل عدد الرموز في نماذج الرؤية واللغة (VLM) دون الحاجة إلى تدريب إضافي. يتيح هذا الأسلوب تحسين الدقة والكفاءة بشكل ملحوظ.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
