في عالم الذكاء الاصطناعي، يعد الفهم متعدد الأبعاد للبشر أمراً ضرورياً لتطبيقات مثل تحليل الأفلام وتطوير شخصيات رقمية. ومع ذلك، كانت المعيارات الحالية للنماذج الكبيرة للرؤية واللغة (Large Vision-Language Models) تقتصر على بيئات معينة وتفتقر إلى تقييم دقيق يركز على الإنسان. ولتجاوز هذه النقطة، تم إطلاق معيار MHPR، وهو مشروع ابتكاري يُعنى بالتقييم المشترك للإدراك والاستدلال في مشاهد تركز على البشر، حيث يتناول جوانب الأفراد والتفاعل بين الأشخاص والأشياء.

يتضمن MHPR تصميم بيانات متعدد المستويات يشمل:
- **بيانات خام مصورة (Captioned Raw Data - C-RD)**
- **بيانات التعديل بإشراف (Supervised Fine-Tuning Data - SFT-D)**
- **بيانات التعلم المعزز (Reinforcement Learning Data - RL-D)**
- **بيانات الاختبار (Test Data - T-D)**

علاوة على ذلك، يتضمن المعيار نظاماً آلياً لتوليد التعليقات والأسئلة (Automated Caption/VQA Generation - ACVG) يضمن إدارة متميزة ومتنوعة للسمات. وبهذه الطريقة، يمكن للنماذج معالجة السمات الدقيقة (مثل المظهر، الملابس، وضع الجسم) والسمات العليا (مثل العلاقات الاجتماعية، معنى الأفعال، العلاقات المكانية، والنوايا).

تشير نتائجه إلى:
1) أن استخدام بيانات تنسيق موجهة (SFT) يعزز بشكل كبير من قدرة النماذج على اتباع التعليمات والاستقرار.
2) تحسينات ملحوظة من خلال بيانات تعلم معزز تم اشتقاقها من تحليل الحالات الصعبة.
3) أن تدريب نموذج Qwen2.5-VL-7B باستخدام MHPR يؤدي إلى تحسينات كبيرة، حيث يحقق نتائج قريبة من نماذج أكبر بكثير.

مع توفر ACVG وMHPR، يُمكن للباحثين تطوير أبحاثهم في مجال الإدراك والاستدلال البشري بشكل قابل للتكرار والتوسع. كيف ترى مستقبل النماذج المعتمدة على الفهم الإنسان؟ شاركونا في التعليقات.