في عالم الذكاء الاصطناعي، تتسارع التطورات في مجال نماذج التصور المتعددة الوسائط، حيث يمكن لهذه النماذج دمج الفهم البصري وتوليد الصور ضمن هيكل مشترك. لكن، رغم ذلك، لا يترجم الفهم بشكل أوتوماتيكي إلى تحكم فعال؛ إذ قد تتمكن النماذج من استنتاج الكائنات والعلاقات، إلا أنها تفشل في تجسيدها في الصورة الناتجة.
هنا تأتي تقنية Latent Action Control (LAC) لتحدث ثورة في هذا المجال، حيث تسعى هذه التقنية إلى جعل الاستنتاجات قابلة للتطبيق عبر تمثيلها كأفعال خفية داخل مولد موحد. مع توفر طلب مدخل، تقوم LAC بإنشاء مسار خفي من الأفعال المهيكلة، مما يسمح بالتخطيط والتصميم البصري الداخلي والتشخيص والتنقيح. هذه الأفعال تُحقن في التيار الخفي الذي يتحكم في عملية توليد الصورة، دون الحاجة إلى إنتاج رموز استنتاجية أو صور وسيطة.
تتعلم LAC مسارات الأفعال من خلال توافق الإجراءات الخفية مع التصورات السيمائية المُعطاة في مرحلة التدريب، والتي تشمل ميزات الصور المبدئية وإشارات التوقف المُشرفة. مما يساعدها على تعزيز التوافق بين العملية المولدة للصورة واستجابة المشهد النهائي.
تم تطبيق هذه التقنية على نموذج BAGEL-7B-MoT، حيث أظهرت نتائج مذهلة في تحسين توليد الصور المركبة والمعتمدة على المعرفة عبر اختبارات GenEval وWISE وT2I-CompBench. وكانت التحسينات الأكثر وضوحًا في العلاقات المكانية، وربط السمات، والمحافظة على المعرفة العالمية. تظهر التقييمات والاختباراتأن مسار الأفعال المُتعلم يُعتبر مصدر تعزيز أساسي لتوليد متسق يربط بين الفهم والتطبيق العملي.
إذا كنت مهتمًا بمستقبل الذكاء الاصطناعي وكيفية تحسين نماذج توليد الصور، فإن LAC قد تكون الخطوة التالية المثيرة في كيفية تفاعلنا مع التكنولوجيا.
ما رأيكم في هذا التطور؟ شاركونا في التعليقات.
ثورة في توليد الصور: السيطرة على الأفعال الخفية لتحسين الفهم البصري
تقدم تقنية Latent Action Control (LAC) طريقة جديدة لتحسين توليد الصور من خلال تقديم أفعال خفية تعزز الفهم البصري. تعمل هذه التقنية على تحويل استنتاجات النماذج إلى أفعال قابلة للتطبيق أثناء عملية توليد الصورة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
