في عالم الذكاء الاصطناعي، يعتبر التفاعل بين رؤية اللغة (Vision-Language Models VLMs) وحل المشكلات البيانية في الفيديو تحدياً كبيراً. لكن الأخبار المثيرة هي أن فريق بحثي قد قام بتقديم مجموعة بيانات جديدة تسمى "pause-and-think-T"، التي تهدف إلى تعزيز قدرة النماذج على التفكير والتحليل قبل تقديم الاقتراحات.
تسعى هذه المجموعة إلى دفع نماذج الذكاء الاصطناعي للكف عن الاستعجال في تقديم الإجابات، بل إلى أخذ لحظة للتفكير في الأدلة المرئية المُتاحة. هذا يعني أن النماذج ستتعلم كيفية تحليل المشاهد بشكل أفضل وتقديم استجابات أكثر دقة وعملية.
تميز هذا البحث بتطوير نموذج صغير بمقدار 4B من المعلمات، وتم تقييمه وفقاً لمعايير "pause-and-think-B"، حيث تم التركيز على الفهم السياقي ومهام التخطيط. وقد حقق النموذج دقة رائعة تصل إلى 58.0%، في حين أنه يتطلب 59 مرة أقل من المعلمات مقارنة بـ Qwen3-VL-235B.
وعلاوة على ذلك، فقد لاحظ الباحثون أن النموذج يمكن أن يتجاوز حدود المجموعة المحددة، مؤدياً بأداء قوي في اختبارات أخرى مثل EgoThink وTempCompass. تشمل النجاحات الكبيرة في التعرف على المساعدة، والتقدير، والقدرة على الاستدلال في سياقات زمنية.
تشير هذه النتائج إلى أن الإشراف المستهدف على التفكير قد يمكّن النماذج المدمجة من تقديم إرشادات عملية، مُعتمدة على البيانات المرئية، مع القدرة على التكيف مع السيناريوهات المختلفة دون الحاجة لتوسيع كبير للنموذج.
بين الموقف والتفكير: بيانات جديدة لتحسين الاقتراحات المساعدة المعتمدة على الفيديو!
تم الكشف عن مجموعة بيانات جديدة تركز على عملية التفكير المنطقي لتحسين أداء نماذج رؤية اللغة في تقديم المساعدات المبنية على الفيديو. النتائج تشير إلى تقدم كبير في القدرة على الفهم والتخطيط السياقي.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
