يواجه الباحثون في مجال [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي) [تحديات](/tag/تحديات) كبيرة عند التعامل مع [نماذج [الرؤية](/tag/الرؤية) واللغة](/tag/[نماذج](/tag/نماذج)-[الرؤية](/tag/الرؤية)-واللغة) ([Vision-Language Models](/tag/vision-language-models) - [VLMs](/tag/vlms)) بسبب الأعباء الحسابية الكبيرة الناتجة عن إدخال [الصور](/tag/الصور) والفيديوهات عالية [الدقة](/tag/الدقة). ولأن الأساليب التقليدية لضغط الرموز تتضمن اختيار الرموز أو دمجمها، فإنها قد تؤدي إلى فقدان [معلومات](/tag/معلومات) بصرية هامة أو تشويه [تمثيل البيانات](/tag/تمثيل-[البيانات](/tag/البيانات)) الأصلي، مما ينعكس سلبًا على [الأداء](/tag/الأداء).

في خطوة ثورية، تم [تطوير](/tag/تطوير) [تقنية](/tag/تقنية) "فورير كومبريسور" (Fourier Compressor)، التي تعتمد على [استكشاف](/tag/استكشاف) [الاستراتيجيات](/tag/الاستراتيجيات) الأكثر [كفاءة](/tag/كفاءة) في [ضغط الرموز](/tag/ضغط-الرموز) البصرية، مع التركيز على النطاق الترددي. تستمد هذه [التقنية](/tag/التقنية) إلهامها من التحولات في النطاق الترددي المستخدمة في ضغط الصور، مثل JPEG، حيث تكشف تحليلنا النظامي عن توزيع غير منتظم للمعلومات الدلالية [عبر](/tag/عبر) حزم التردد.

تعمل "فورير كومبريسور" كنموذج فعال وغير معتمد على المعاملات، حيث تزيل الفائض من التمثيلات البصرية داخل النطاق الترددي، مما يقلل الحمل الحسابي بشكل ملحوظ دون التضحية بنقاء المعنى. باستخدام [تحويل فورييه](/tag/[تحويل](/tag/تحويل)-فورييه) السريع (FFT) مع تعقيد يبلغ · O(n^2 log n)، تحافظ هذه [التقنية](/tag/التقنية) على جودة [التداول](/tag/التداول) المعلوماتي بنسبة تتجاوز 96%، بينما تقلل من FLOPs أثناء [الاستنتاج](/tag/الاستنتاج) بنسبة تصل إلى 83.8% وتزيد من [سرعة](/tag/سرعة) الإنتاج بنسبة تبلغ 31.2%.

أظهرت [التجارب](/tag/التجارب) الواسعة على [معايير](/tag/معايير) [الصور](/tag/الصور) أن "فورير كومبريسور" تتفوق باستمرار على الطرق التقليدية، بل تتجاوز بعض الأساليب المعتمدة على المعاملات. ويظهر تألق هذه [التقنية](/tag/التقنية) بشكل خاص عند تطبيقها على مهام [فهم](/tag/فهم) الفيديو، مما يعزز إمكانية استخدامها العملي لنماذج [VLMs](/tag/vlms) بكفاءة عالية.