في عالم الذكاء الاصطناعي المتطور، باتت توصيات المواد متعددة الأنماط (Multi-modal Recommendation) تحظى بشعبية متزايدة، خاصة وأن المنتجات تحمل سمات غنية مثل النصوص والصور. لكن رغم ذلك، تظل هناك تحديات ملحة يواجهها الباحثون في هذا المجال: الأولى تتعلق بنقص الفعالية في عملية تجزئة البيانات (Tokenization)، حيث تعاني الأساليب الحالية مثل RQ-VAE من عدم التفكيك بين المعاني المشتركة عبر الأنماط وتفاصيلها الخاصة، مما يؤدي إلى تكرار أو انهيار المعلومات. والثانية هي عدم توافق البيانات مع المعمارية المستخدمة - إذ يقوم نظام Transformers التقليدي بمعالجة المعرفات الدلالية كتيارات مسطحة، مُغفلاً الهيكلية المعقدة للتفاعلات بين المستخدمين والمواد.

لذا، جاء إطار Hi-SAM (Hierarchical Structure-Aware Multi-modal) ليشكل ثورة في هذا المجال من خلال تصاميم مبتكرة تشمل:

1. **محلل الرموز الدلالية المفصول (DST)**: يقوم بتوحيد الأنماط عبر محاذاة تعتمد على الهندسة وتجزئة البيانات بشكل تدريجي. يستخدم كود بوكس مشترك لاستنباط التوافق بينما يستعيد الرموز الخاصة بتفاصيل دالة من المتبقيات، محققًا الحد الأدنى من المعلومات المتبادلة.

2. **محول الذاكرة-العنصر الهرمي (HMAT)**: يوزع ترميز الموضع على الفضاءات الفرعية بين العناصر وفي داخلها عبر تقنية Hierarchical RoPE لاستعادة الهيكلية، مع إدخال رموز عقائدية لتكثيف العناصر في الذاكرة، مما يحتفظ بالتفاصيل للعناصر الحالية بينما يتم الوصول إلى التاريخ من خلال ملخصات مضغوطة.

تظهر التجارب على مجموعات بيانات حقيقية تحسنًا مستمرًا مقارنةً بأساليب توصية الدولة (SOTA)، خاصة في حالات بداية التوصيات الباردة (Cold-start scenarios). ومع نشره على منصة اجتماعية كبيرة تخدم ملايين المستخدمين، حقق Hi-SAM زيادة بنسبة 6.55% في المؤشرات الأساسية عبر الإنترنت.

هل تتوقع أن تشهد منصات الذكاء الاصطناعي الأخرى مثل هذه التحسينات المذهلة؟ شاركونا آراءكم في التعليقات!