في مجالات المعرفة الحساسة، تلعب نماذج الرؤية صغيرة الحجم دوراً حاسماً بفضل متطلباتها الحاسوبية المنخفضة وتوفر العديد من الأساليب لفهم نتائجها. ومع ذلك، غالباً ما تكشف هذه التفسيرات عن عدم توافق هذه النماذج مع المعرفة البشرية، مما يؤدي إلى اعتمادهما على ارتباطات غير حقيقية قد تؤدي إلى سلوك غير ثابت عند نشرها في العالم الحقيقي.
لحل هذه المشكلة، تم تقديم طريقة جديدة وفعالة لتوافق نماذج الرؤية الخاصة بالمهام مع المعرفة البشرية من خلال استغلال قدرات التعميم لنموذج اللغة البصرية الكبير (Large Vision Language Model - LVLM).
تتميز طريقة التوافق البصري المعتمدة على LVLM (LVLM-Aided Visual Alignment - LVLM-VA) بواجهة ثنائية الاتجاه تترجم سلوك النماذج إلى لغة طبيعية وتربط مواصفات الفئات البشرية بانتقادات على مستوى الصورة. مما يمكّن الخبراء من التفاعل بفعالية مع النموذج.
تظهر الدراسات التجريبية تحسناً ملحوظاً في توافق سلوك النموذج مع المواصفات البشرية، مدعماً ببيانات اصطناعية وعالمية. كما تؤكد النتائج أن هذه الطريقة تقلل بشكل فعّال من اعتماد النموذج على الخصائص الزائفة والتحيزات الخاصة بالمجموعات، دون الحاجة إلى ملاحظات دقيقة.
هل أنت مهتم بكيفية تحسين أداء نماذج الذكاء الاصطناعي باستخدام المعرفة البشرية؟ شارك برأيك في التعليقات!
استخدام نماذج اللغة الكبيرة لتحسين توافق نماذج الرؤية الخاصة بالمهام مع المعرفة البشرية
تقدم تقنية جديدة مصممة لتحسين توافق نماذج الرؤية الصغيرة مع المعرفة البشرية باستخدام نماذج اللغة الكبيرة. تقدم هذه الطريقة واجهة ثنائية الاتجاه لتعزيز التفاعل بين الخبراء والنماذج، مما يؤدي إلى أداء أفضل وأكثر دقة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
