في عالم الذكاء الاصطناعي المتطور، تتجه النماذج متعددة الوسائط (Unified Multimodal Models) إلى دمج الفهم البصري والتوليد ضمن هيكل واحد. لكن العملية الحالية للتدريب كانت تركز على تحسين الفهم بصرياً بواسطة إشارات نصية نادرة، بينما كان توليد الصور يعتمد على أهداف كثيفة من البكسلات. وهذا الفصل بين الاستراتيجيات أدى إلى عدم توافق في فضاءات التمثيل، مما منع التفاعل المثمر بين الفهم البصري والتوليد.

في أحدث أبحاثنا، نستعرض لأول مرة التحقيق النظامي في الضبط التوليدي بعد التدريب، حيث نقوم بتشكيل مهام بصرية هرمية كبدائل توليدية لتقليص العزلة في النماذج متعددة الوسائط. دراساتنا التجريبية كشفت أن المهام الدلالية ذات المستوى العالي، مثل تقسيم الصور، تعمل كبدائل مثلى. على عكس المهام ذات المستوى المنخفض التي تشتت تركيز النماذج بتفاصيل القوام، فإن تقسيم الصور يوفر دلالات هيكلية تعزز بشكل كبير من الإدراك البصري وتزيد من دقة التوليد.

بناءً على هذه الرؤى، نقدم لكم الضبط التوليدي الدلالي (Semantic Generative Tuning)، وهو نموذج ثوري يستغل تقسيم الصور كبديل توليدي لتحقيق الانسجام بين القدرات متعددة الوسائط. تحليلاتنا الميكانيكية تظهر أن الضبط الجديد يُحسن بشكل جوهري من فصاحة الخصائص الخطية ويُحسن توزيع الانتباه بين النصوص والصور.

تقييماتنا الشاملة تثبت أن الضبط التوليدي الدلالي يحسن باستمرار من الفهم متعدد الوسائط ودقة التوليد عبر مجموعة متنوعة من المعايير الرئيسية. اجعلوا ذكاءكم الاصطناعي متطورًا ورائعًا! هل أنتم مستعدون لتجربة هذا التطور الجديد؟