يواجه الباحثون في مجال الذكاء الاصطناعي تحديات كبيرة عند التعامل مع نماذج الرؤية واللغة (Vision-Language Models - VLMs) بسبب الأعباء الحسابية الكبيرة الناتجة عن إدخال الصور والفيديوهات عالية الدقة. ولأن الأساليب التقليدية لضغط الرموز تتضمن اختيار الرموز أو دمجمها، فإنها قد تؤدي إلى فقدان معلومات بصرية هامة أو تشويه تمثيل البيانات الأصلي، مما ينعكس سلبًا على الأداء.
في خطوة ثورية، تم تطوير تقنية "فورير كومبريسور" (Fourier Compressor)، التي تعتمد على استكشاف الاستراتيجيات الأكثر كفاءة في ضغط الرموز البصرية، مع التركيز على النطاق الترددي. تستمد هذه التقنية إلهامها من التحولات في النطاق الترددي المستخدمة في ضغط الصور، مثل JPEG، حيث تكشف تحليلنا النظامي عن توزيع غير منتظم للمعلومات الدلالية عبر حزم التردد.
تعمل "فورير كومبريسور" كنموذج فعال وغير معتمد على المعاملات، حيث تزيل الفائض من التمثيلات البصرية داخل النطاق الترددي، مما يقلل الحمل الحسابي بشكل ملحوظ دون التضحية بنقاء المعنى. باستخدام تحويل فورييه السريع (FFT) مع تعقيد يبلغ · O(n^2 log n)، تحافظ هذه التقنية على جودة التداول المعلوماتي بنسبة تتجاوز 96%، بينما تقلل من FLOPs أثناء الاستنتاج بنسبة تصل إلى 83.8% وتزيد من سرعة الإنتاج بنسبة تبلغ 31.2%.
أظهرت التجارب الواسعة على معايير الصور أن "فورير كومبريسور" تتفوق باستمرار على الطرق التقليدية، بل تتجاوز بعض الأساليب المعتمدة على المعاملات. ويظهر تألق هذه التقنية بشكل خاص عند تطبيقها على مهام فهم الفيديو، مما يعزز إمكانية استخدامها العملي لنماذج VLMs بكفاءة عالية.
فورير كومبريسور: ثورة في ضغط الرموز البصرية لنماذج الرؤية واللغة
تعرفوا على تقنية فورير كومبريسور التي تعد بإنجاز مذهل في ضغط الرموز البصرية، مما يعزز فعالية نماذج الرؤية واللغة بأقل تكلفة حسابية. هذه التقنية الجديدة تحقق توازناً مثالياً بين الأداء والكفاءة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
