في السنوات الأخيرة، أثبتت النماذج ذات الرؤية واللغة (Vision-Language Models) قدراتها الاستثنائية، لكن لا تزال ظاهرة "الهَلوسة" (Hallucination) تُعد من أكبر التحديات التي تواجه هذه الأنظمة. هذه الظاهرة تتمثل في قدرة الأنظمة على توليد استجابات لغوية قد تكون صحيحة من الناحية اللغوية إلا أنها لا تتماشى مع الواقعية أو الفهم البصري الصحيح. كيف يتم التغلب على هذه العقبة؟
تم تقديم إطار عمل مبتكر يُعرف بـ "تحسين التفضيل المتسلسل" (Stage-wise Preference Optimization) كوسيلة فعالة للحد من الهلوسة. يعتمد هذا الإطار على بناء بيانات تمتاز بالتركيز على التفضيلات المتعلقة بالهلوسة بدلاً من الاعتماد فقط على البيانات التقليدية.
يتمثل الأساس في هذا النهج في إنشاء أزواج تفضيلية تركز على الحالات الهلوسية بالقرب من حدود الفشل المعروفة، مع التركيز على عدة عناصر منها الاتجاه المكاني الغامض، وعلاقات الكائنات، وعدم اليقين في التعرف الضوئي على الحروف (OCR)، وكذلك تدريب على الافتراضات الزائفة المعادية.
لقد أظهرت التجارب التي تم إجراؤها على نماذج معيارية وبيئات تقييم متعددة الوسائط في العالم الحقيقي تحسنًا ملحوظًا في الاتساق البصري وتقليل الهلوسة، بالإضافة إلى استجابات أكثر ثراءً وموضوعية. ولعل الأمر الأكثر تميزًا هو أن الإطار المقترح أظهر أداءً متفوقًا في إنتاج استجابات مرتبطة بصريًا مقارنة بعدد من النماذج المتخصصة المعروفة في هذا المجال.
تفتح هذه النتائج آفاقًا جديدة للبحث في نمذجة الاتساق الفيزيائي وتطوير تفكير متعدد الوسائط مع مراعاة عدم اليقين، مما يُعد خطوة مهمة نحو تحسين أداء النماذج الرئيسة في الذكاء الاصطناعي. ما رأيكم في هذه التطورات المثيرة في عالم الذكاء الاصطناعي؟ شاركونا في التعليقات!
ثورة في تقنيات الرؤية واللغة: تقليل الهلوسة في النماذج باستخدام تحسين تفضيل متسلسل!
تعاني النماذج المتعددة الوسائط من ظاهرة الهلوسة، حيث تنتج إجابات غير منطقية، ولكن الباحثين يقدمون حلاً مبتكرًا باستخدام تحسين تفضيل متسلسل. يُظهر الإطار الجديد تحسنًا ملحوظًا في دقة الاستجابات بصريًا.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
