تعتبر نماذج الرؤية-اللغة (Vision-Language Models) خطوة كبيرة نحو تحسين اكتشاف الكائنات، لكن الأداء يواجه تحديات كبيرة في سيناريوهات الرؤية المتبادلة، وخاصة عندما تختلف المناظر بين الأرض والسماء. في هذه الحالة، تتغير العوامل الهندسية مثل الارتفاع والمقياس والتوزيع المكاني، مما يجعل اكتشاف الكائنات أمراً معقداً.

يأتي إطار CrossVL كحل مبتكر؛ حيث يجمع بين تقنيتين رئيسيتين: التجميع الواعي للتعقيد (Complexity-Aware Pathway Aggregation) والتعليم المنهجي المتوازن (Paired Curriculum Learning).

تعمل تقنية التجميع الواعي للتعقيد على تقدير تعقيد المشهد اعتمادًا على إحصائيات متعددة الوسائط، حيث تتيح توجيه الميزات البصرية عبر مسارات متعددة للحصول على تمثيلات خاصة بكل منظر. من ناحية أخرى، تعتمد تقنية التعليم المنهجي المتوازن على الاتساق الدلالي لأزواج الأرض والسماء المنسقة لتوفير إشراف مستقر في البداية، المركّز على تعزيز الأداء قبل الانتقال لتقنيات التعيين العشوائي.

وقد أظهر البحث أن إطار CrossVL قد حسّن دقة نموذج Florence-2 في البيانات الجوية بنسبة 2.37%، وتقليص الفجوة بين أداء الأرض والسماء بشكل ملحوظ. كما تم تحقيق تقليص بنسبة 3.3x في التباين عبر البذور العشوائية.

تشير هذه النتائج إلى أهمية التكييف المعماري والتدريبي المتناغم لتحقيق اكتشاف VLM قوي في سيناريوهات متعددة المناظر. لذا، هل تعتقد أن CrossVL سيغير مستقبل نماذج الرؤية-اللغة؟ شاركونا آرائكم في التعليقات!