في عصر الذكاء الاصطناعي المتطور، تسعى النماذج متعددة الوسائط (Multimodal Large Language Models) لتحقيق أداء عالٍ من خلال تحسين التوجيهات، لكن عمليات النشر في العالم الحقيقي تتطلب غالبًا توسيع القدرات بشكل مستمر عبر مهام متتابعة. هنا يأتي دور تقنية جديدة تُعرف باسم "توليد التوجيهات الديناميكية عبر الوسائط" (Dynamic Cross-Modal Prompt Generation) والمعروفة اختصارًا بـ DRAPE.
تستهدف هذه التقنية تحسين التعلم المستمر المتعدد الوسائط (Multimodal Continual Instruction Tuning - MCIT) من خلال تطوير توجيهات مرنة تتكيّف مع كل موقف جديد بدلاً من الاعتماد على تجميع توجيهات ثابتة. بدلاً من اختيار التوجيهات من مجموعة محددة مسبقًا، يقوم DRAPE بإنتاج توجيهات تتلاءم مع استفسارات محددة من النصوص وتفضل التفاعل مع ميزات الصورة، مما يؤدي إلى إنتاج توجيهات مبتكرة تتناسب مع كل حالة على حدة.
وبالإضافة إلى ذلك، لتفادي فقدان المعرفة السابقة خلال التحديثات المتتالية، يستخدم DRAPE تقنية خاصة تُعرف باسم "إسقاط تدرج المساحة الفارغة"، بالإضافة إلى استخدام توجيه يعتمد على نماذج CLIP لاختيار الأساليب المناسبة دون الحاجة لعلامات المهام.
أظهرت التجارب واسعة النطاق على مقاييس (MCIT) أن DRAPE قد حقق أداءً متفوقًا مقارنةً بالأساليب التقليدية، مما يفتح المجال لرؤية مستقبلية مليئة بالاحتمالات لزيادة فعالية الذكاء الاصطناعي في مهام متعددة.
توليد توجيهات ديناميكية عبر الوسائط لتحسين التعلم المستمر للذكاء الاصطناعي
تقدم الأكاديمية مفهومًا جديدًا يعتمد على إنشاء توجيهات ديناميكية لمساعدة نماذج الذكاء الاصطناعي متعددة الوسائط على التكيف مع المهام المتتابعة دون فقدان المهارات السابقة. هذا الإنجاز يمثل خطوة نوعية نحو تحسين أداء النظام في التعامل مع تحديات جديدة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
