في عالم الذكاء الاصطناعي المتطور، يبرز مفهوم التعرف المتعدد التسميات (Multi-Label Recognition - MLR) كنقطة انطلاق حيوية لتحسين أداء نماذج الرؤية واللغة (Vision-Language Models - VLMs). يعتمد هذا المفهوم على استغلال المعرفة المسبقة للنماذج لتعزيز قدرتها على التكيف مع سيناريوهات التعرف المعقدة، مما يؤدي إلى تحسين متانة النموذج.

ومع تطور التطبيقات اللامركزية التي تتطلب التعلم الفيدرالي، تواجه نماذج الرؤية واللغة تحديًا يتمثل في كيفية التكيف مع بيانات كل عميل والتي قد تكون غير متجانسة وخاصة. هذا الاختلاف قد يؤدي إلى تعرض النموذج لمخاطر التحلل (overfitting) للارتباطات الوهمية، مما ينجم عنه تفعيل تصنيفات غير ذات صلة عند معالجة عينات جديدة.

لتجاوز هذه العقبات، يعيد الباحثون صياغة التعلم الفيدرالي في سياق التعرف المتعدد التسميات باستخدام نموذج سببي. هنا تظهر FedMPT، وهي الطريقة الأولى المصممة خصيصًا للتعلم الفيدرالي في MLR. تعتمد FedMPT على مفهوم استغلال الشروط القابلة للتعميم لتوجيه التعلم الفيدرالي، مما يساعد على تقليل التنبيهات الخاطئة للتسميات.

باستغلال نماذج اللغات الضخمة (Large Language Models - LLMs)، تقدم FedMPT قناة لتحليل الشروط الأساسية التي تتحكم في الاعتماديات بين التسميات. بل وتذهب أبعد من ذلك، حيث تقوم بإدخال نقل مثالي بين العروض الغنية بالشروط والشرائح الصورية لكشف معاني متعددة على مستوى المناطق.

تظهر النتائج من عدة مجموعات بيانات مرجعية أن هذه الطريقة تحقق نتائج تنافسية وتتفوق على أساليب state-of-the-art (SOTA) تحت ظروف متنوعة، مما يسهل تحقيق التطورات الجديدة في الذكاء الاصطناعي.