في عالم الذكاء الاصطناعي، يُعتبر اكتشاف الفئات العمومية (Generalized Category Discovery - GCD) من التوجهات المتقدمة لتحليل البيانات غير المصنفة. يتطلب هذا النظام نقل المعرفة لتصنيف الحالات غير المعروفة استنادًا إلى البيانات المعروفة. لكن كيف نستطيع تحقيق ذلك في ظل التغيرات في المجالات المختلفة؟
تشير الدراسات الأخيرة إلى أن معظم الطرق التقليدية تفترض أن جميع البيانات تأتي من نفس المجال، لكن الواقع غالباً ما يتضمن تغييرات في المجال وتمثيلات دلالية مختلفة. لذلك، تم اقتراح ثلاثة أطر مبتكرة تتكيف مع نماذج الأساس بدءًا من نماذج الرؤية الذاتية إلى نماذج اللغة والرؤية.
1. **HiLo**: يقوم هذا النموذج بفصل الميزات المتعلقة بالمجال والدلالات عبر استخراج عدة مستويات للميزات وتقليل المعلومات المتبادلة، مع الاستعانة بأساليب مثل PatchMix وcurriculum sampling.
2. **HLPrompt**: يوسع HiLo من خلال جلب تحسينات دلالية للصيانة، حيث يعمل على تقليل الضوضاء الناتجة عن الخلفيات والمجالات.
3. **VLPrompt**: يستفيد من نماذج اللغة والرؤية من خلال استخدام تنبيهات نصية مفصولة وتنظيم التناسق بين العوامل المختلفة.
تتميز هذه الأساليب بالمبادئ التصميمية المشتركة رغم استخدامها لنماذج مختلفة، مما يجعلها مناسبة لنشرها في سيناريوهات متعددة. وقد أظهرت التجارب العديدة على الضغوط الاصطناعية وتغييرات المجالات الواقعية تحسينات متسقة مقارنة بالأساليب الأساسية القوية.
مع استمرار تطور هذا المجال، أصبح التفاعل بين الرؤية واللغة أداة قوية وواعدة في دفع حدود التعلم الآلي.
**ما رأيكم في هذه التطورات؟ هل تعتقدون أن هذه الأساليب ستحدث ثورة في عالم الذكاء الاصطناعي؟ شاركونا في التعليقات.**
اكتشاف الفئات العمومية في ظل تغييرات المجال: كيف تحدث ثورة في نماذج الرؤية ولغة الرؤية؟
تقدم الأبحاث حديثاً في مجال اكتشاف الفئات العمومية طرقاً جديدة لفهم البيانات غير المصنفة في ظل تقلبات المجالات. هذا التوجه يعتمد على نماذج متقدمة تجمع بين الرؤية والتوجه اللغوي لتحسين الأداء في مواقف حقيقية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
