تشكل النماذج متعددة الأنماط (Multimodal Models) نقطة انطلاقة مثيرة في مجال الذكاء الاصطناعي، ولكن تواجه هذه النماذج تحديات واضحة في تحقيق التوازن بين الجودة والكمية في البيانات الاصطناعية. في هذا السياق، ظهرت دراسة جديدة تناولت الإشكالية المثيرة للاهتمام حول كيفية تحسين اختيار البيانات، حيث تقدم أسلوبًا مبتكرًا يُعرف باسم One-Step-Train (OST).

تسعى هذه المقاربة إلى إعادة صياغة عملية اختيار البيانات كمسألة تصنيف نزولي لطوبولوجيا البيانات، بدلاً من الاعتماد على طرق تجريبية تعتمد على الاستدلال الدلالي. يقدر OST الفائدة الهامشية لكل عينة عبر تحديث محاكي من خطوة واحدة على وكيل خفيف الوزن، مما يتيح استغلال البيانات بشكل أكثر كفاءة.

أظهرت التجارب التي أجريت على سلسلة Qwen عبر موجهات التفكير الرياضي متعددة الأنماط أن OST يحقق كفاءة باريوتو العالية، حيث تم اختيار أعلى 50 عينة مما قلل تكاليف التدريب بنسبة 43% واستهلاك الوقت الكلي بنسبة 17%. والأكثر إثارة، أن الطريقة المطورة تتجاوز الأداء القوي للأسلوب التقليدي "LLM-as-a-Judge" بفارق 1.8 نقطة.

علاوة على ذلك، ومع ميزانية حسابية ثابتة، يُظهر أسلوب OST باستخدام أعلى 20 عينة تحقيقًا مرتفعًا بفارق 5.6 نقطة مقارنة بأسلوب "LLM-as-a-Judge"، كما أنه يحسن الأداء بالمقارنة مع المعايير التقليدية مثل DEITA ويفوق أداء معايير "Full-SFT" بفارق 8.8 نقطة.

كما أن أسلوب OST يقاوم تأثير الضوضاء، حيث يحدد العينات السلبية بشكل فعال، مما يساعد على عكس الانزلاق السلبي الذي يحدث في المهام العقلية المعقدة.

ما رأيكم في هذا التطور الثوري في اختيار البيانات للنماذج متعددة الأنماط؟ شاركونا تجاربكم وآرائكم في التعليقات.