في عالم الذكاء الاصطناعي، يبدو أن التحديات في معالجة الصور عالية الدقة قد وجدت حلاً مبتكرًا. نقدم لكم JetViT، عائلة جديدة من نماذج التحويل (Vision Transformers) الهجينة التي تتحدى النماذج التقليدية. وتتفوق JetViT ليس فقط من حيث الدقة، بل أيضًا في كفاءة الأداء عند معالجة الصور ذات الجودة العالية.
يعتمد الأساس الذي تعمل عليه JetViT على تقنية "Post-Training Attention Search"، وهي إطار عمل يهدف إلى تسريع عملية تشغيل نماذج التحويل بعد تدريبها. من خلال هذه التقنية، يتم تحويل نماذج التحويل ذات الانتباه الكامل إلى نماذج هجينة فعالة عبر تحديد واستبدال الكتل الزائدة من الانتباه الكامل إلى كتل الانتباه الخطي أو النافذة.
تشمل الخطوات الأساسية في العملية ما يلي:
1. تحسين تصميم كتل الانتباه الخطي.
2. العثور على أفضل تركيبة من كتل الانتباه الخطي وكتل الانتباه النافذة.
3. تحديد والحفاظ على كتل الانتباه الكامل الحيوية.
لقد أثبتت JetViT كفاءتها بشكل خاص عند اختبارها على نموذجين رائدين في معالجة الصور، هما DINOv3 وDepthAnythingV2. على وحدة معالجة الرسوميات NVIDIA H100، أظهرت JetViT أداءً متفوقًا، حيث حققت زيادة في الإنتاجية تصل إلى 1.79x وتخفيضًا في زمن الانتظار يصل إلى 44.81%، كل ذلك دون التأثير على دقة النتائج.
من المتوقع أن تطلق JetViT شيفرتها ونماذجها المعجلة قريبًا، مما يعد خطوة جديدة في عالم الذكاء الاصطناعي. هل أنتم مستعدون لاستكشاف هذه التقنية المتطورة؟ شاركونا آراءكم في التعليقات!
JetViT: ثورة في تحسين أداء نماذج التحويل العالية الدقة للصور!
تقدم JetViT نماذج تحويل هجينة تعمل بكفاءة عالية وتحقق دقة تفوق النماذج الرائدة. تصل هذه النماذج إلى مضاعفة الأداء بشكل ملحوظ مع تقليل زمن التأخير دون التأثير على الدقة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
