في السنوات الأخيرة، أثبتت [النماذج](/tag/النماذج) ذات [الرؤية واللغة](/tag/[الرؤية](/tag/الرؤية)-واللغة) ([Vision-Language Models](/tag/vision-language-models)) قدراتها الاستثنائية، لكن لا تزال ظاهرة "الهَلوسة" (Hallucination) تُعد من أكبر التحديات التي تواجه هذه الأنظمة. هذه الظاهرة تتمثل في قدرة الأنظمة على [توليد](/tag/توليد) استجابات لغوية قد تكون صحيحة من الناحية اللغوية إلا أنها لا تتماشى مع الواقعية أو الفهم البصري الصحيح. كيف يتم التغلب على هذه العقبة؟
تم تقديم إطار [عمل](/tag/عمل) مبتكر يُعرف بـ "[تحسين التفضيل](/tag/[تحسين](/tag/تحسين)-التفضيل) المتسلسل" (Stage-wise Preference [Optimization](/tag/optimization)) كوسيلة فعالة للحد من [الهلوسة](/tag/الهلوسة). يعتمد هذا الإطار على [بناء](/tag/بناء) [بيانات](/tag/بيانات) تمتاز بالتركيز على [التفضيلات](/tag/التفضيلات) المتعلقة بالهلوسة بدلاً من الاعتماد فقط على [البيانات](/tag/البيانات) التقليدية.
يتمثل الأساس في هذا النهج في إنشاء أزواج تفضيلية تركز على الحالات الهلوسية بالقرب من حدود الفشل المعروفة، مع التركيز على عدة عناصر منها الاتجاه المكاني الغامض، وعلاقات الكائنات، وعدم اليقين في [التعرف الضوئي على الحروف](/tag/[التعرف](/tag/التعرف)-الضوئي-على-الحروف) ([OCR](/tag/ocr))، وكذلك [تدريب](/tag/تدريب) على الافتراضات الزائفة المعادية.
لقد أظهرت [التجارب](/tag/التجارب) التي تم إجراؤها على [نماذج](/tag/نماذج) معيارية وبيئات [تقييم](/tag/تقييم) [متعددة الوسائط](/tag/متعددة-الوسائط) في العالم الحقيقي تحسنًا ملحوظًا في الاتساق البصري وتقليل الهلوسة، بالإضافة إلى استجابات أكثر ثراءً وموضوعية. ولعل الأمر الأكثر تميزًا هو أن الإطار المقترح أظهر أداءً متفوقًا في إنتاج استجابات مرتبطة بصريًا مقارنة بعدد من [النماذج المتخصصة](/tag/[النماذج](/tag/النماذج)-المتخصصة) المعروفة في هذا المجال.
تفتح هذه النتائج آفاقًا جديدة للبحث في [نمذجة](/tag/نمذجة) الاتساق الفيزيائي وتطوير [تفكير](/tag/تفكير) متعدد الوسائط مع مراعاة عدم اليقين، مما يُعد خطوة مهمة [نحو](/tag/نحو) [تحسين [أداء](/tag/أداء) النماذج](/tag/[تحسين](/tag/تحسين)-[أداء](/tag/أداء)-[النماذج](/tag/النماذج)) الرئيسة في [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي). ما رأيكم في هذه التطورات المثيرة في عالم [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي)؟ شاركونا في [التعليقات](/tag/التعليقات)!
ثورة في تقنيات الرؤية واللغة: تقليل الهلوسة في النماذج باستخدام تحسين تفضيل متسلسل!
تعاني النماذج المتعددة الوسائط من ظاهرة الهلوسة، حيث تنتج إجابات غير منطقية، ولكن الباحثين يقدمون حلاً مبتكرًا باستخدام تحسين تفضيل متسلسل. يُظهر الإطار الجديد تحسنًا ملحوظًا في دقة الاستجابات بصريًا.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
