في عالم [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي) المتسارع، تواجه [نماذج اللغات](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)) [متعددة الوسائط](/tag/متعددة-الوسائط) ([MLLMs](/tag/mllms)) [تحديات](/tag/تحديات) كبيرة عند اختيار نقاط التحقق، خاصة عندما تكون الفروق في [الأداء](/tag/الأداء) طفيفة وإشارات [التقييم](/tag/التقييم) [حساسة](/tag/حساسة) للضوضاء. غالبًا ما تعتمد الطرق الحالية على مؤشرات ثابتة تفتقر إلى تقدير موثوق لعدم اليقين، مما يؤدي إلى عدم [توافق](/tag/توافق) مع الاستخدام الفعلي.
تناولت [دراسة جديدة](/tag/[دراسة](/tag/دراسة)-جديدة) هذا التحدي من خلال صياغة عملية اختيار نقاط [التحقق](/tag/التحقق) كمشكلة [قرار](/tag/قرار) موثوقة تحت [عدم اليقين](/tag/عدم-اليقين) في [التقييم](/tag/التقييم). تقدم [الدراسة](/tag/الدراسة) إطار [عمل](/tag/عمل) متعدد المراحل يدمج [بيانات حقيقية](/tag/[بيانات](/tag/بيانات)-حقيقية) من الحياة اليومية، واستخدام [حكم](/tag/حكم) مبني على [نماذج](/tag/نماذج) اللغة، وبروتوكولات ترتيب متدرجة. حيث يقوم نظام [التقييم](/tag/التقييم) بتنظيم [تحسين](/tag/تحسين) تدريجي [عبر](/tag/عبر) [تصفية](/tag/تصفية) نقطية، وترتيب قائم على القوائم، ومقارنة ثنائية.
لزيادة [موثوقية](/tag/موثوقية) النتائج، تم تقديم تقدير للثقة يعتمد على طريقة أخذ العينات، مع صياغة تسجيل تعتمد على النسب المئوية التي تلتقط [خصائص](/tag/خصائص) التوزيع وتعاقب الإخفاقات في الأطراف. كما تم التأكيد على أن جودة البيانات، وخاصة قابلية قراءة النصوص في [النماذج](/tag/النماذج) المخصصة لتحويل [الصور](/tag/الصور) إلى [نص](/tag/نص) ([OCR](/tag/ocr))، تعد عامل حاسم في صلاحية [التقييم](/tag/التقييم).
تعتبر هذه النتائج خطوة مهمة [نحو](/tag/نحو) [تحسين](/tag/تحسين) فعالية استخدام [النماذج اللغوية](/tag/[النماذج](/tag/النماذج)-اللغوية) في [تطبيقات](/tag/تطبيقات) متعددة، مما يسهم في [تحقيق](/tag/تحقيق) [أداء](/tag/أداء) أكثر [موثوقية](/tag/موثوقية) وتفاعلاً. ما رأيكم في هذا التطور؟ شاركونا في [التعليقات](/tag/التعليقات).
اختيار نقاط التحقق الفعّالة لنماذج اللغات متعددة الوسائط عبر تقييم ديناميكي وترتيب مدروس
تقديم منهجية مبتكرة لاختيار نقاط التحقق لنماذج اللغات متعددة الوسائط (MLLMs) تعتمد على تقييم موثوق وتنظيم متدرج. تبحث الدراسة في كيفية التغلب على تحديات الأداء والضوضاء في إشارات التقييم.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
