في عالم الذكاء الاصطناعي، حققت النماذج الحديثة إنجازات رائعة، لكن بحوثاً حديثة قد أظهرت أن هذه النماذج تواجه تحديات في التفكير التكويني (compositional reasoning)، وغالباً ما تؤدي بمستوى يعادل أو يقل عن مستوى الصدفة على مقاييس التقييم المعتمدة. ولتصحيح هذا القصور، قمنا بمراجعة المشكلة وابتكار "نقاط المطابقة الجماعية" التي تقيم قدرة النماذج بشكل أكثر دقة.

ميزة هذه النقاط أنها تمكنت من تحسين أداء نموذج SigLIP-B16 ليتجاوز جميع النتائج السابقة، وأيضاً تمكنت من جعل نموذج GPT-4.1 يحقق أول نتيجة تتجاوز تقديرات الأداء البشري على Benchmark Winoground. من خلال هذه النظرة الجديدة، قدمنا خوارزمية جديدة تُدعى "Test-Time Matching" (TTM)، وهي خوارزمية تكرارية ذاتية التطوير تعزز أداء النماذج بدون الحاجة إلى إشراف خارجي.

تقدم TTM تحسينات ملحوظة؛ حيث سمحت لنموذج SigLIP-B16 بتجاوز GPT-4.1 في اختبار MMVP-VLM، مما جعلها تُسجل معايير جديدة في الأداء. بالإضافة إلى ذلك، لم تقتصر TTM على النماذج التباينية للرؤية-اللغة، بل قدمت أيضاً مكاسب واضحة على نموذج متعدد الوسائط التوليدي عبر عدة معايير.

الأهم من ذلك، أن TTM أثبتت فعاليتها حتى في مقاييس لا تعتمد على تأثيرات المعايير أو التراكيب الجماعية، محققة مكاسب نسبية تصل إلى 85.7% على مجموعات بيانات صعبة مثل WhatsUp. عبر 16 نوعاً مختلفاً من مجموعات البيانات التي تتنوع في إعداداتها، أظهرت تجاربنا أن TTM تعزز قدرة النماذج وتحرك حدود التفكير التكويني إلى آفاق جديدة.