في عالم الذكاء الاصطناعي، تلعب نماذج اللغات الضخمة (Large Language Models) دورًا متزايد الأهمية في معالجة المهام المتعلقة بالرؤية ثلاثية الأبعاد. ومع ذلك، تواجه هذه النماذج تحديات كبيرة في مجال التفكير المكاني، حيث تحتاج إلى التعرف على الكائنات المستهدفة بالنسبة لنقاط مرجعية معينة. لذا، يتم استخدام الرسوم البيانية المشهدية (Scene Graphs) لتمثيل العلاقات بين الكائنات، لكن التعامل مع الرسوم البيانية الكاملة يؤدي إلى تكاليف عالية من حيث عدد الرموز وكفاءة الحوسبة.

لذلك، برزت الحاجة إلى تقنيات تقليم (Pruning) جديدة تركز على الحفاظ على العلاقات المكانة الأكثر صلة بالمهمة المحددة. هنا يأتي ابتكار CAPruner، الذي يركز على دمج الدلالات السهمية مع القرب المكاني لتقدير أهمية العلاقات، مما يمكنه من اختيار العلاقات الحيوية في سياق معين. علاوة على ذلك، للتغلب على تكاليف التوصيف على مستوى العلاقات، يتم تدريب CAPruner عبر الإشراف على الدرجات المجمعة لكل حواف العقد.

تظهر التجارب الواسعة أن CAPruner يحافظ بفعالية على العلاقات الأساسية للتفكير المكاني، مما يؤدي إلى تحسينات ملحوظة في أداء نماذج اللغات الضخمة في المهام ثلاثية الأبعاد. ولمن يهتم بالتعمق أكثر، يمكنكم الاطلاع على الشيفرة المصدرية المتاحة على GitHub: https://github.com/fz-zsl/CAPruner.

ما رأيكم في هذا التطور الرائع؟ شاركونا في التعليقات!