Ailoxa Logo

🏷️ #نماذج متعددة الوسائط

24 مقال

جوجل ديب مايند تطلق نموذج Gemma 4 12B: معجزة جديدة تعمل بدون مشفر على لابتوب بحجم 16 غيغابايت!
نماذج لغوية

جوجل ديب مايند تطلق نموذج Gemma 4 12B: معجزة جديدة تعمل بدون مشفر على لابتوب بحجم 16 غيغابايت!

مارك تيك بوستمنذ 1 يوم
فيستا هوب: ثورة جديدة في تقييم الذكاء البصري للبحث العميق
أبحاث

فيستا هوب: ثورة جديدة في تقييم الذكاء البصري للبحث العميق

أركايف للذكاءمنذ 2 يوم
كيف يمكن أن يحدث التعلم الآلي المتجدد؟ اكتشف إطار عمل VGID لإزالة المعلومات الغير مرغوب فيها من نماذج الذكاء الاصطناعي متعددة الوسائط!
أبحاث

كيف يمكن أن يحدث التعلم الآلي المتجدد؟ اكتشف إطار عمل VGID لإزالة المعلومات الغير مرغوب فيها من نماذج الذكاء الاصطناعي متعددة الوسائط!

أركايف للذكاءمنذ 3 يوم
خطوات مبتكرة نحو ذكاء أصلي للممارسات الفيزيائية في النماذج متعددة الوسائط
أبحاث

خطوات مبتكرة نحو ذكاء أصلي للممارسات الفيزيائية في النماذج متعددة الوسائط

أركايف للذكاءمنذ 9 يوم
تطور ثوري في الذكاء الاصطناعي: Chronicle يجمع بين اللغة والسلاسل الزمنية!
نماذج لغوية

تطور ثوري في الذكاء الاصطناعي: Chronicle يجمع بين اللغة والسلاسل الزمنية!

أركايف للذكاءمنذ 14 يوم
ابتكار SAVER: إطار رؤي انتقائي لتحسين استخراج المعلومات متعددة الوسائط
أبحاث

ابتكار SAVER: إطار رؤي انتقائي لتحسين استخراج المعلومات متعددة الوسائط

أركايف للذكاءمنذ 14 يوم
تعرَّف على TorchUMM: قاعدة الشيفرة الموحدة لنماذج متعددة الوسائط
أبحاث

تعرَّف على TorchUMM: قاعدة الشيفرة الموحدة لنماذج متعددة الوسائط

أركايف للذكاءمنذ 14 يوم
جوجل تدخل عالم الفيديو: نموذج Gemini Omni يحول النصوص والصور والصوت إلى فيديوهات بسهولة مذهلة!
نماذج لغوية

جوجل تدخل عالم الفيديو: نموذج Gemini Omni يحول النصوص والصور والصوت إلى فيديوهات بسهولة مذهلة!

تيك كرانشمنذ 16 يوم
التحول في الذكاء الاصطناعي: كيف يمكن لـ CAVE تحسين التفكير البصري المعقد؟
أبحاث

التحول في الذكاء الاصطناعي: كيف يمكن لـ CAVE تحسين التفكير البصري المعقد؟

أركايف للذكاءمنذ 17 يوم
ثورة في توليد الصور: السيطرة على الأفعال الخفية لتحسين الفهم البصري
نماذج لغوية

ثورة في توليد الصور: السيطرة على الأفعال الخفية لتحسين الفهم البصري

أركايف للذكاءمنذ 17 يوم
اختيار الأدلة البصرية الذكية: الثورة في استرجاع المعلومات متعددة الوسائط
أبحاث

اختيار الأدلة البصرية الذكية: الثورة في استرجاع المعلومات متعددة الوسائط

أركايف للذكاءمنذ 22 يوم
إعادة توجيه توليد المحتوى البصري: كيف يعزز نموذج متعدد الوسائط الفهم والإنتاجية!
أبحاث

إعادة توجيه توليد المحتوى البصري: كيف يعزز نموذج متعدد الوسائط الفهم والإنتاجية!

أركايف للذكاءمنذ 28 يوم
كيف يفهم GPT-4o الرؤية؟ تقييم النماذج متعددة الوسائط في مهام الرؤية الحاسوبية
أبحاث

كيف يفهم GPT-4o الرؤية؟ تقييم النماذج متعددة الوسائط في مهام الرؤية الحاسوبية

أركايف للذكاءمنذ 1 شهر
لغة معمارية مبتكرة لوكلاء بصريين مرونين: كيف يمكن للذكاء الاصطناعي تجاوز التحديات المعمارية؟
أبحاث

لغة معمارية مبتكرة لوكلاء بصريين مرونين: كيف يمكن للذكاء الاصطناعي تجاوز التحديات المعمارية؟

أركايف للذكاءمنذ 1 شهر
أبستريم كيو إيه: إطار عمل مبتكر لتحسين استنتاج الفيديو والإجابة على الأسئلة!
أبحاث

أبستريم كيو إيه: إطار عمل مبتكر لتحسين استنتاج الفيديو والإجابة على الأسئلة!

أركايف للذكاءمنذ 1 شهر
ثورة الصوت: اكتشفوا Audio-Omni - الإطار الشامل لتوليد وتحرير الصوتيات!
أبحاث

ثورة الصوت: اكتشفوا Audio-Omni - الإطار الشامل لتوليد وتحرير الصوتيات!

أركايف للذكاءمنذ 1 شهر
كيفية تعليم نماذج متعددة الوسائط الكبيرة مهارات جديدة دون فقدان القدرات السابقة
أبحاث

كيفية تعليم نماذج متعددة الوسائط الكبيرة مهارات جديدة دون فقدان القدرات السابقة

أركايف للذكاءمنذ 1 شهر
التفكير المتسلسل يعاني من تدهور الذكاء المكاني في النماذج متعددة الوسائط!
أبحاث

التفكير المتسلسل يعاني من تدهور الذكاء المكاني في النماذج متعددة الوسائط!

أركايف للذكاءمنذ 1 شهر
MERRIN: ثورة في استرجاع الأدلة المتعددة الوسائط في بيئات الإنترنت المربكة
أبحاث

MERRIN: ثورة في استرجاع الأدلة المتعددة الوسائط في بيئات الإنترنت المربكة

أركايف للذكاءمنذ 1 شهر
فتح آفاق جديدة: كيف تحقق نماذج تحويل الفيديو إلى صوت تطوراً مذهلاً في توليد الصوتيات الطويلة؟
أبحاث

فتح آفاق جديدة: كيف تحقق نماذج تحويل الفيديو إلى صوت تطوراً مذهلاً في توليد الصوتيات الطويلة؟

أركايف للذكاءمنذ 1 شهر