في عالم تطور الذكاء الاصطناعي، تسعى نماذج اللغة الشاملة (Omni-modal Language Models) لدمج البيانات الصوتية والبصرية والنصوص بشكل فعال. لكن ماذا يحدث عندما تتجاوز التقييمات التقليدية؟ تشير دراسة جديدة إلى إمكانية تضخيم النتائج عندما يكون الدليل المرئي كافيًا للإجابة على الاستفسارات. هنا، ينصب التركيز على أهمية تقييم النموذج بعيدًا عن أي تحيز بصري.

لقد تم تدقيق تسعة معايير خاصة بالنماذج الشاملة باستخدام استفسارات بصرية فقط، وتم إزالة الاستفسارات التي يمكن حلها بصريًا فقط. ونتيجة لهذه العملية، تم إنشاء تقييم جديد تحت اسم OmniClean، والذي يحتوي على 8,551 استفسارًا صالحًا من أصل 16,968 تم تدقيقها.

وبناءً على هذا التقييم المبتكر، تم اختبار نموذج جديد يسمى OmniBoost، والذي يعتمد على خطوات ما بعد التدريب تشمل سلاسل تدريب مختلفة مثل التعلم المتوازن (Balanced bi-modal SFT) والتعلم المعزز (RLVR) مع بيانات مكررة ذاتيًا. النتائج المثيرة أظهرت أن النموذج الجديد يحقق أداءً موازياً، وأحياناً أعلى، من نموذج Qwen3-Omni-30B-A3B-Instruct، مع امتناع استخدام معلم أقوى!

تسلط هذه النتائج الضوء على أهمية العمل نحو تقييمات تعكس الأداء الحقيقي للنماذج الشاملة، وتكشف عن إمكانية استفادة النماذج الأصغر من خطوات ما بعد التدريب تحت إشراف استفسارات شاملة. كيف ترى نتائج هذه الدراسة في تحسين التطبيقات العملية للذكاء الاصطناعي؟ شاركونا آراءكم في التعليقات.