في عالم الذكاء الاصطناعي، يبرز استرجاع الصور بدون تدريب (Zero-Shot Composed Image Retrieval - ZS-CIR) كحقل مزدهر يتطلب المزيد من الابتكار. يقوم هذا المجال بتحديد الصور المستهدفة استنادًا إلى صورة مرجعية ونصوص وصفية، دون الحاجة إلى مجموعات تدريب. ومع ذلك، تعاني البيانات المستخدمة حاليًا من تناقضات كبيرة تؤثر على فعالية النتائج، حيث تُستخرج غالبًا من مصادر غير موثوقة.
لتجاوز هذه العقبات، تم تقديم ZeroSight، معيار جديد يهدف إلى تحسين استرجاع الصور بدون تدريب. يتضمن هذا المعيار مجموعة بيانات جديدة تحتوي على أزواج متسقة من الصور المستهدفة والمرجعية، يتم استخراجها من مقاطع الفيديو. تعتمد طرق بناء البيانات وطرق التقييم المستخدمة هنا على تقييم دقيق لأداء استرجاع الصور مع مراعاة الترتيب بين الصور الإيجابية والسلبية.
عبر استخدام تقنيات مساعدة بمعالجة اللغة الكبرى (Large Language Models - LLM)، تم تحسين تقديم الوصف للصورة المرجعية، وتم ضمان توافق بصري ودلالي بين الأطر المستخرجة من الفيديو. ومن اللافت أن البيانات المستخدمة لتدريب هذا النظام ليست ضمن مجموعة بيانات CLIP السابقة، مما يضمن عدم وجود تحيز أو تداخل.
علاوة على ذلك، تم تقديم طريقة جديدة تُدعى SC4CIR (Symmetric Consistency for CIR)، والتي لا تتطلب تدريبًا مسبقًا. تستند هذه الطريقة إلى ثلاثة اختبارات للتنسق المتماثل، مما يساعد على تحديد الأهداف السلبية المعقدة بفعالية.
تظهر نتائج التجارب التي تم إجراؤها على 27 طريقة مختلفة أن البيانات الحالية والمعايير المستخدمة تؤدي إلى تضخيم الأداء، مما يشوه قدرات طرق الاسترجاع. تعد ZeroSight بمثابة خطوة هامة إلى الأمام في تحسين عمليات استرجاع الصور، وتتوفر تفاصيل إضافية عنها على GitHub.
ابتكار غير مسبوق: معيار جديد لاسترجاع الصور بدون تدريب باستخدام بيانات الفيديو
تقدم ZeroSight معيارًا مبتكرًا لاسترجاع الصور بدون تدريب، مستندًا إلى بيانات الفيديو لضمان دقة أكبر. يهدف هذا الابتكار إلى معالجة عيوب البيانات الحالية التي تؤثر سلبًا على دقة الاسترجاع.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
