في عصر التقدم التكنولوجي السريع، تلعب نماذج الرؤية واللغة الكبيرة (VLLMs) دوراً أساسياً في تحسين الفهم بين الأبعاد المختلفة للبيانات. ومع ذلك، يواجه الباحثون تحديات في تعزيز فعالية هذه النماذج بسبب نماذج الإرشادات المرئية التي يمكن أن تتأثر بأحداث لغوية بسيطة أو مسارات عقلية تقليدية، مما يقيد التعلم المتعدد النماذج.
ولمعالجة هذه المشكلة، قدم الباحثون أسلوباً جديداً يُعرف باسم CVS لاختيار البيانات بدون الحاجة إلى التدريب (training-free data selection). يعتمد هذا الأسلوب على فكرة بسيطة ولكن قوية: إذا كانت عينة بيانات عالية الجودة، فإن إدخال سؤال يجب أن يؤثر بشكل ملحوظ على تقييم صحة الإجابة المقدمة استناداً إلى صورة معينة.
تستفيد الطريقة الجديدة من نموذج VLLM مثبت كمقيم، حيث تقيس الفجوة في صحة الإجابة عند وجود السؤال وعند عدم وجوده، مما يساعد في تحديد العينات التي تتطلب تفكيراً مشتركاً بين الرؤية واللغة، بينما تتخلص من الضجيج السيماني.
أظهرت التجارب على مجموعات بيانات مثل Vision-Flan وThe Cauldron أن CVS يُحقق أداءً متميزًا. فقد تفوقت هذه الطريقة على التدريب باستخدام بيانات كاملة بنسبة 3.5% و4.8% باستخدام فقط 10% و15% من البيانات على التوالي، وظلت ذات كفاءة عالية على مجموعة Cauldron المتنوعة بشكل كبير. علاوة على ذلك، نجح CVS في تقليل التكلفة الحاسوبية بنسبة 17.3% و44.4% مقارنة بأساليب مثل COINCIDE وXMAS.
هل تشعر أن هذه الطريقة ستحدث نقلة نوعية في نماذج الرؤية واللغة؟ شاركنا أفكارك في التعليقات!
ثورة جديدة في نماذج اللغة والرؤية: كيف تُغير اختيار البيانات بدون تدريب!
تقدم الأبحاث الجديدة أسلوباً مبتكراً لاختيار البيانات في نماذج الرؤية واللغة بدون الحاجة إلى التدريب، مما يعزز فعالية التعلم المتعدد النماذج. هذا الأسلوب يتميّز بالقدرة على تحسين تقييمات الإجابات بناءً على الأسئلة المطروحة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
