أصبح [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي) ([AI](/tag/ai)) جزءًا لا يتجزأ من [التحول الرقمي](/tag/التحول-الرقمي) في مجالات [الصحة](/tag/الصحة) والعلاج، حيث تسعى المؤسسات [الطبية](/tag/الطبية) إلى استخدامها لتحسين [التجربة](/tag/التجربة) العلاجية. في هذا السياق، تم الكشف عن [دراسة جديدة](/tag/[دراسة](/tag/دراسة)-جديدة) تركز على [تطوير](/tag/تطوير) نظام فعال في مجال [الإجابة على الأسئلة](/tag/الإجابة-على-الأسئلة) [الطبية](/tag/الطبية) من خلال [الدمج](/tag/الدمج) بين [الرؤية](/tag/الرؤية) واللغة، وهو ما يُعرف بـ Medical Visual Question Answering ([VQA](/tag/vqa)).
تتميز [نماذج [الرؤية](/tag/الرؤية)-اللغة](/tag/[نماذج](/tag/نماذج)-[الرؤية](/tag/الرؤية)-[اللغة](/tag/اللغة)) الصغيرة (Small [Vision-Language Models](/tag/vision-language-models)) التي تتراوح سعتها بين 2-8 مليار معلمة، بأنها مثالية للتطبيقات السريرية، نظرًا لقيود الخصوصية، ضعف الاتصال، ومتطلبات [السرعة](/tag/السرعة) المنخفضة التي تدعم [الاستدلال](/tag/الاستدلال) على [الأجهزة](/tag/الأجهزة) أو في المواقع. ورغم ذلك، فإن قدرتها المحدودة قد تساهم في إنتاج مخرجات صحيحة ولكن غير دقيقة.
لذا، قامت [الدراسة](/tag/الدراسة) بتوسيع طريقة الترميز القائم على [نظرية](/tag/نظرية) الألعاب، التي كانت تقتصر سابقًا على مهام [معالجة [اللغة](/tag/اللغة) الطبيعية](/tag/معالجة-[اللغة](/tag/اللغة)-الطبيعية) المغلقة، لتشمل [نماذج [الرؤية](/tag/الرؤية)-اللغة](/tag/[نماذج](/tag/نماذج)-[الرؤية](/tag/الرؤية)-[اللغة](/tag/اللغة)) في حالات الاستجابة المفتوحة للأسئلة [الطبية](/tag/الطبية). وقد تم تقديم معيار توقف واصرار واتيرشتاين، الذي يستبدل مطابقة ترتيب الكلمات، مما يمكّن من [تحسين](/tag/تحسين) [دقة](/tag/دقة) الإجابات بشكل ملحوظ.
أظهرت النتائج على [مجموعات البيانات](/tag/مجموعات-[البيانات](/tag/البيانات)) [VQA](/tag/vqa)-RAD وPathVQA تحسنًا كبيرًا وثابتًا في الأداء، حيث تم [تحسين](/tag/تحسين) [نموذج](/tag/نموذج) Qwen3-VL-2B بنحو 3.5 نقطة مئوية (p < 0.01) متجاوزًا النموذج الجشع ذو 4 مليار معلمة. وفي [دراسة](/tag/دراسة) PathVQA، تساوى [نموذج](/tag/نموذج) [Gemma](/tag/gemma)-3-4B مع MedGemma-4B في [الأداء](/tag/الأداء) رغم عدم وجود [تحسين](/tag/تحسين) معين للنطاق.
مع التوازن الكمي، استطاعت [معايير](/tag/معايير) واتيرشتاين تقليل متوسط [عدد](/tag/عدد) دورات [التوافق](/tag/التوافق) بمعدل يقارب 20%، مما يعزز [كفاءة الاستدلال](/tag/[كفاءة](/tag/كفاءة)-[الاستدلال](/tag/الاستدلال)) مع الحفاظ على [سلوك](/tag/سلوك) التوازن القائم على [نظرية الألعاب](/tag/[نظرية](/tag/نظرية)-[الألعاب](/tag/الألعاب)).
لمزيد من التفاصيل، يمكنكم الوصول إلى [كود](/tag/كود) [البرمجة](/tag/البرمجة) المتاح على [GitHub](/tag/github): [https://github.com/luca-hagen/Wasserstein-BDG-medical-VQA](https://github.com/luca-hagen/Wasserstein-BDG-medical-VQA).
في ظل هذه التطورات الرائعة، ما رأيكم في تأثير مثل هذه التقنيات على [مستقبل](/tag/مستقبل) [الرعاية الصحية](/tag/الرعاية-الصحية)؟ شاركونا آرائكم في [التعليقات](/tag/التعليقات)!
ابتكار جديد في الذكاء الاصطناعي: توظيف تقنيات واتيرشتاين لتحسين إجابات الأسئلة الطبية المرئية
تقدم دراسة جديدة تقنية مبتكرة تعتمد على مبدأ واتيرشتاين لتحسين أداء نماذج الذكاء الاصطناعي في مجال الإجابة عن الأسئلة الطبية المرئية. هذه التقنية تساهم في تقليل الأخطاء وتحسين دقة النتائج بشكل ملحوظ.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
