في خطوة مثيرة نحو تطوير قدرة الذكاء الاصطناعي على فهم الرؤية، تكشف دراسات حديثة أن مولدات الصور والفيديو تمتلك سلوكيات فهم بصري مثير للإعجاب، حيث يمكن اعتبارها كمكافئ للأداء اللغوي القوي الذي تم تطويره في نماذج اللغات الضخمة (Large Language Models) من خلال التدريب السابق.
لطالما تم التكهن بأن القدرة على إنشاء محتوى بصري تشير إلى قدرة على فهمه، إلا أن الأدلة على تطور نماذج الرؤية التوليدية لقدرعفهم قوي كانت محدودة. لكن في هذا العمل، تم تقديم نموذج Vision Banana، الذي يعد نموذجًا عامًا يستند إلى تطوير Nano Banana Pro (NBP) عن طريق ضبط التعليمات على مزيج من بيانات التدريب الأصلية وكمية قليلة من بيانات مهام الرؤية.
من خلال معالجة مساحة المخرجات لمهام الرؤية كصورة RGB، يتم إعادة صياغة الإدراك بطريقة جديدة تصب في خانة توليد الصور. يعرض نموذج Vision Banana أداءً متفوقًا على مجموعة متنوعة من المهام، ويحقق نتائج مذهلة في الفهم ثنائي الأبعاد وثلاثي الأبعاد. بل إن الأداء يتفوق أو ينافس المتخصصين في المجالات الخاصة، مثل نموذج Segment Anything Model 3 في مهام التقسيم، وسلسلة Depth Anything في تقدير العمق.
تشير هذه النتائج إلى أن التدريب السابق لتوليد الصور يمثل نوعًا من التعلم العام عن الرؤية، وهو يتشابه مع دور توليد النصوص في فهم اللغة. يمكن أن نكون على أعتاب تحول كبير في مجال الرؤية الحاسوبية، حيث يحتل التدريب السابق لتوليد الرؤية مكانة مركزية في بناء نماذج الرؤية الأساسية لكل من التوليد والفهم.
توفر هذه التطورات أمام الباحثين والمطورين آفاق جديدة في كيفية تصميم واستخدام نماذج الرؤية، مما يفتح المجال أمام الابتكارات التي كانت مجرد حلم في الماضي. ما رأيكم في هذا التطور؟ شاركونا في التعليقات.
ثورة في الذكاء الاصطناعي: كيف تغير مولدات الصور طريقة فهمنا للرؤية!
تكشف الأبحاث الجديدة أن مولدات الصور والفيديو تظهر سلوكيات فهم بصري مذهلة، مماثلة لقدرات نماذج اللغة. يتمثل جوهر هذه الدراسة في تقديم نموذج Vision Banana كحل عام يحقق أداءً متفوقًا في مهام الرؤية المختلفة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
