في عالم الذكاء الاصطناعي، تتسارع التطورات في مجال [نماذج](/tag/نماذج) التصور المتعددة الوسائط، حيث يمكن لهذه [النماذج](/tag/النماذج) دمج الفهم البصري وتوليد [الصور](/tag/الصور) ضمن هيكل مشترك. لكن، رغم ذلك، لا يترجم الفهم بشكل أوتوماتيكي إلى [تحكم](/tag/تحكم) فعال؛ إذ قد تتمكن [النماذج](/tag/النماذج) من [استنتاج](/tag/استنتاج) الكائنات والعلاقات، إلا أنها تفشل في تجسيدها في [الصورة](/tag/الصورة) الناتجة.
هنا تأتي [تقنية](/tag/تقنية) [Latent Action Control](/tag/latent-action-control) (LAC) لتحدث ثورة في هذا المجال، حيث تسعى هذه [التقنية](/tag/التقنية) إلى جعل الاستنتاجات قابلة للتطبيق [عبر](/tag/عبر) تمثيلها كأفعال خفية داخل مولد موحد. مع توفر طلب مدخل، تقوم LAC بإنشاء مسار خفي من الأفعال المهيكلة، مما يسمح بالتخطيط والتصميم البصري الداخلي والتشخيص والتنقيح. هذه الأفعال تُحقن في التيار الخفي الذي يتحكم في عملية [توليد](/tag/توليد) الصورة، دون الحاجة إلى إنتاج [رموز](/tag/رموز) استنتاجية أو [صور](/tag/صور) وسيطة.
تتعلم LAC مسارات الأفعال من خلال [توافق](/tag/توافق) الإجراءات الخفية مع [التصورات](/tag/التصورات) السيمائية المُعطاة في مرحلة التدريب، والتي تشمل [ميزات](/tag/ميزات) [الصور](/tag/الصور) المبدئية وإشارات التوقف المُشرفة. مما يساعدها على تعزيز [التوافق](/tag/التوافق) بين [العملية](/tag/العملية) المولدة للصورة واستجابة المشهد النهائي.
تم تطبيق هذه [التقنية](/tag/التقنية) على [نموذج](/tag/نموذج) [BAGEL](/tag/bagel)-7B-MoT، حيث أظهرت نتائج مذهلة في [تحسين](/tag/تحسين) [توليد الصور](/tag/[توليد](/tag/توليد)-[الصور](/tag/الصور)) المركبة والمعتمدة على [المعرفة](/tag/المعرفة) [عبر](/tag/عبر) [اختبارات](/tag/اختبارات) GenEval وWISE وT2I-CompBench. وكانت التحسينات الأكثر وضوحًا في [العلاقات](/tag/العلاقات) المكانية، وربط السمات، والمحافظة على [المعرفة](/tag/المعرفة) العالمية. تظهر [التقييمات](/tag/التقييمات) والاختباراتأن مسار الأفعال المُتعلم يُعتبر مصدر تعزيز أساسي لتوليد متسق يربط بين الفهم والتطبيق العملي.
إذا كنت مهتمًا بمستقبل [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي) وكيفية [تحسين](/tag/تحسين) [نماذج توليد](/tag/[نماذج](/tag/نماذج)-[توليد](/tag/توليد)) الصور، فإن LAC قد تكون الخطوة التالية المثيرة في كيفية تفاعلنا مع [التكنولوجيا](/tag/التكنولوجيا).
ما رأيكم في هذا التطور؟ شاركونا في [التعليقات](/tag/التعليقات).
ثورة في توليد الصور: السيطرة على الأفعال الخفية لتحسين الفهم البصري
تقدم تقنية Latent Action Control (LAC) طريقة جديدة لتحسين توليد الصور من خلال تقديم أفعال خفية تعزز الفهم البصري. تعمل هذه التقنية على تحويل استنتاجات النماذج إلى أفعال قابلة للتطبيق أثناء عملية توليد الصورة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
