في ظل التطورات السريعة في مجال [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي) وتحديدًا في [نماذج [الرؤية](/tag/الرؤية) واللغة](/tag/[نماذج](/tag/نماذج)-[الرؤية](/tag/الرؤية)-واللغة) ([Vision-Language Models](/tag/vision-language-models))، ظهرت الحاجة إلى مسارات جديدة تعزز من [كفاءة](/tag/كفاءة) تلك [النماذج](/tag/النماذج) على [الأجهزة](/tag/الأجهزة) المحدودة الموارد. هنا تأتي [تقنية](/tag/تقنية) [SplitQ](/tag/splitq) لتغير المعادلة!
تعتبر [تقنية](/tag/تقنية) [تخفيض الدقة](/tag/تخفيض-[الدقة](/tag/الدقة)) ما بعد [التدريب](/tag/التدريب) (Post-Training [Quantization](/tag/quantization)) أمراً محورياً لضمان [أداء](/tag/أداء) [نماذج [الرؤية](/tag/الرؤية) واللغة](/tag/[نماذج](/tag/نماذج)-[الرؤية](/tag/الرؤية)-واللغة) بسلاسة على [الأجهزة](/tag/الأجهزة) الذكية، ولكن كيفية التعامل مع [التنوع](/tag/التنوع) بين [بيانات النصوص](/tag/[بيانات](/tag/بيانات)-النصوص) والصور يُشكل تحدياً كبيراً. تُظهر [دراسات](/tag/دراسات) حديثة أن الأساليب التقليدية غالبًا ما تؤدي إلى تقليل [دقة النماذج](/tag/[دقة](/tag/دقة)-[النماذج](/tag/النماذج)) بسبب الاختلافات بين الطرازات المختلفة أثناء عملية الترميز.
[الأبحاث](/tag/الأبحاث) الجديدة تكشف أن التوزيع غير المتساوي للاختلافات [عبر](/tag/عبر) القنوات يُعد من الأسباب الرئيسية وراء هذه الإشكالية. لذلك، كان [التفكير](/tag/التفكير) في [تحسين أداء](/tag/[تحسين](/tag/تحسين)-[أداء](/tag/أداء)) الترميز دافعًا لتطوير SplitQ، وهي بنية غير تقليدية تركز على تفكيك القنوات المتعلقة بكل نمط.
تحمل [SplitQ](/tag/splitq) في جعبتها وحدة جديدة تُعرف بتفكيك القنوات الخاصة بالنمط (Modality-specific Outlier Channel Decoupling - MOCD)، والتي تساهم في عزل القنوات ذات الاختلافات الملحوظة مع الحد الأدنى من التكاليف الزائدة. والأكثر إثارة هو [تصميم](/tag/تصميم) وحدة [المعايرة](/tag/المعايرة) التكيفية بين الأنماط (Adaptive Cross-Modal Calibration - ACC) التي تستخدم فرعين خفيفين للتعلم بشكل ديناميكي لتقليل [أخطاء](/tag/أخطاء) الترميز الناتجة عن اختلاف الأنماط.
تم إجراء [تجارب](/tag/تجارب) شاملة على مجموعة من أشهر [نماذج](/tag/نماذج) VLM، وأثبتت النتائج تفوق [تقنية](/tag/تقنية) [SplitQ](/tag/splitq) بشكل ملحوظ على الطُّرق الحالية المعتمدة، مما يعزز من [الأداء](/tag/الأداء) [عبر](/tag/عبر) 6 [مجموعات بيانات](/tag/مجموعات-[بيانات](/tag/بيانات)) متعددة الأنماط. ومع الحفاظ على 93.5% من [أداء](/tag/أداء) [الدقة](/tag/الدقة) تحت [بيئة](/tag/بيئة) الاختبار الصعبة W3A3، فإن [SplitQ](/tag/splitq) تدفع الإبتكار لتحقيق مستويات جديدة من [الكفاءة](/tag/الكفاءة) في [نشر النماذج](/tag/[نشر](/tag/نشر)-[النماذج](/tag/النماذج)) المتطورة.
إذا كنت من عشاق [التكنولوجيا](/tag/التكنولوجيا) والابتكار، فلا تفوت فرصة متابعة [تطورات](/tag/تطورات) مثل هذه التقنيات في عالم [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي). ما رأيكم في هذا التطور؟ شاركونا في [التعليقات](/tag/التعليقات)!
ثورة في ترميز النماذج: تكنولوجيا SplitQ لتحسين أداء نماذج الرؤية واللغة!
تستعرض تقنية SplitQ الفريدة كيف يمكن التغلب على تحديات ترميز البيانات المتنوعة في نماذج الرؤية واللغة، محققاً خطوة متقدمة في تحسين الأداء على الأجهزة ذات الموارد المحدودة. استعدوا لعالم جديد من الابتكارات التقنية!
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
