في عالم الذكاء الاصطناعي، تواجه النماذج الكبيرة، مثل نماذج الرؤية-اللغة ثلاثية الأبعاد (Vision-Language Models) مشكلات تتعلق بالتكلفة العالية للتشغيل. تقدم البحوث الحديثة حلاً مبتكرًا من خلال إطار عمل جديد يتمثل في "تقطير المعرفة" (Knowledge Distillation) لنقل مهارات التفكير المكاني من نموذج كبير إلى نموذج أصغر. في هذا الإطار، يقوم نموذج المعلم الذي يحتوي على 7 مليارات خلية معلومات بتعليم نموذج الطالب الذي يحتوي على 2.29 مليار خلية.
ما يميز هذه المقاربة أنها تحققت من خلال تقليل زمن الاستدلال بمعدل 8.7 مرة، بالإضافة إلى تقليص حجم النموذج إلى الثلث، مع الاحتفاظ بنسبة تصل إلى 72% من أداء المعلم. يعتمد هذا النظام على مشفر الرؤية VGGT وأنبوب تقطير متعدد المهام مع تقييم وزن الفقد القائم على عدم اليقين.
لتحسين جودة التفكير بدون الاعتماد على بيانات سلسلة الأفكار (Chain-of-Thought)، أدخل الباحثون مفهوم "سجل الأفكار الخفية" (Hidden CoT)، وهو عبارة عن رموز مخفية قابلة للتعلم تعمل كمساحة داخلية لتوليد الأفكار قبل إنتاج الإجابات. تعتبر هذه الاستخدام الأول من نوعه لتفكير السجل الخفي في النماذج الثلاثية الأبعاد المقطرة.
بالإضافة إلى ذلك، يمكن لنموذج الطالب تنفيذ مهام مختلفة مثل الوصف المكاني، وتقدير العمق، واكتشاف الكائنات. وقد أظهرت التجارب على مجموعات بيانات مثل ScanNet و3D-FRONT فهمًا قويًا للمساحات ثلاثية الأبعاد، حيث وصل النموذج إلى دقة تتراوح بين 68-72% في مهام التفاعل والقرب.
تفتح هذه الابتكارات الأبواب أمام تطبيقات جديدة وفعالة في استفسارات المشاهدات ثلاثية الأبعاد على المنصات ذات الموارد المحدودة، مما يقربنا أكثر من تحقيق ذكاء اصطناعي متقدم وقابل للاستخدام بشكل عملي.
نموذج ثوري في الرؤية ثلاثية الأبعاد: خفض تكلفة الحسابات مع الحفاظ على الأداء الممتاز!
تقدم تقنية جديدة في نموذج الرؤية ثلاثية الأبعاد توفر أداءً ممتازًا بتكاليف حسابية أقل. من خلال نقل المعرفة من نموذج كبير إلى نموذج أصغر، يتيح هذا الابتكار استخدامات أوسع في تطبيقات الذكاء الاصطناعي.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
