في عالم الذكاء الاصطناعي، تُعتبر نماذج اللغة البصرية (Vision-Language Models) أدوات قوية لتحليل اللغة والصورة معًا، لكن غالبًا ما تعاني من عيوب في المهام التي تتطلب أدلة قوية، وذلك بسبب حجم الأدلة المرئية التي قد تكون صغيرة ومحدودة، مما يؤدي في بعض الأحيان إلى خسارة هامة في القدرة على استخلاص هذه الأدلة.
للتغلب على هذه التحديات، تم تقديم تقنية جديدة تُعرف باسم SPOT-E، والتي تعتمد على إعادة تشكيل عدم اليقين خلال وقت الاختبار من خلال استخدام "أضواء" مرئية، تُعزز من أداء النماذج دون الحاجة إلى إعادة تدريبها. تعتمد هذه التقنية على قياس فقدان المعلومات الداخلي، مما يساعد على تحسين تحديد الإشارات المرئية المستخدمة في تحليل الأدلة.
في دراستهم، أظهر الباحثون أن تقليل عدم اليقين عن طريق تقنيات بسيطة يمكن أن يؤدي إلى نتائج مختلطة، حيث قد يكون للمستويات المنخفضة من عدم اليقين تفسيرات متعددة - سواء كانت ناتجة عن ثقة مبنية على الأدلة أو انهيار في الإختصارات. ولتجاوز هذا الغموض، تم إدخال مرجع عدم اليقين المنخفض وهدف هيكلة عدم اليقين، مما يُعزز من قدرة النماذج على تحديد الإجابات الصحيحة مع الحفاظ على موثوقية الإجابات الأساسية.
تعتبر SPOT-E تقنية سهلة الاستخدام، حيث يمكن دمجها في أنظمة قائمة بالفعل، وتجمع بين أدوات التحكم البسيطة والذكاء الاصطناعي الفعال باستخدام تحسين السياسات التدرجية (Group Relative Policy Optimization). أظهرت التجارب عبر مستويات مختلفة من نماذج اللغة البصرية أداءً محسنًا وموثوقية أعلى خاصة في ظل ظروف بصرية فاسدة.
هذه التقنية تمثل خطوة جديدة في تحسين نماذج الذكاء الاصطناعي، مما يفتح آفاقًا جديدة لتحسين الأداء في مجالات متعددة. فكيف تتصور مستقبل استخدام مثل هذه التقنيات في حياتنا اليومية؟
تقنية SPOT-E: إعادة تشكيل عدم اليقين في وقت الاختبار باستخدام الضوء المرئي لتحسين نماذج اللغة البصرية
تقدم تقنية SPOT-E طريقة جديدة لتحسين أداء نماذج اللغة البصرية في المهام التي تتطلب أدلة قوية. تعتمد التقنية على إعادة تشكيل عدم اليقين أثناء الاختبار لتحسين الاستجابة وتعزيز دقة النتائج.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
