مع التقدم السريع في التكنولوجيا، برزت نماذج اللغات الضخمة (Large Language Models) كوسيلة واعدة في تطبيقات الرعاية الصحية. على الرغم من هذا الوعد، إلا أن تطبيق النماذج العامة في الإعدادات الحقيقية يواجه تحديات عديدة، مثل قيود الخصوصية وتكاليف الاستدلال، بالإضافة إلى محدودية استخدامها على الأجهزة اللوحية أو المحمولة.
هذه التحديات تثير الحاجة إلى تطوير نماذج أصغر وأكثر كفاءة تتطلب استراتيجيات تدريب ما بعد دقيقة لضمان قدرة طبية موثوقة. في دراستهم الجديدة، درس الباحثون مفهوم "تحسين السياسات النسبية الجماعية" (Group Relative Policy Optimization - GRPO) على نماذج اللغات الضخمة الموجهة للإجابة على الأسئلة الطبية المتعلقة بالقلب، مستخدمين إشرافاً قائماً على معايير مستقاة من RaR-Medicine.
اقتُرحت إطار عمل مكافآت واعية للاختلافات، حيث تم استبدال تجميع المعايير ذو الوزن الثنائي وأساليب تسجيل Likert الأحادية، بوظائف مكافآت تحليلية مستمرة استمدت من نتائج المعايير. يقدم هذا التشكيل إشارات تحسين أكثر ثراءً لتغذية راجعة تتسم بالندرة، ومتعددة المعايير، وصعبة التحقق بشكل تلقائي، مما يساهم في تعزيز التعلم التعزيزي على السياسات.
وعند اختبار نموذج GRPO الخاص بالمجموعة على مجموعة فرعية تحتوي على أسئلة طبية متعلقة بالقلب من HealthBench، حقق طفرة كبيرة في الدقة، حيث قفزت من 0.362 إلى 0.502، وكذلك تحسن مقياس F1 من 0.532 إلى 0.668 مقارنة بالنموذج الأساسي Qwen3-14B. كما ظل النموذج منافساً لنموذج GPT-OSS-120B، الذي سجل دقة 0.508 وF1 بمعدل 0.674.
توضح نتائج هذه الدراسة كيف يمكن لاستراتيجيات المكافآت المصممة بعناية تحسين الإجابة عن الأسئلة الطبية المتعلقة بالقلب في النماذج اللغوية الضخمة، مما يفتح الأفق لتوسيع هذه التوجهات لتشمل مهام أخرى قائمة على المعايير.
ما رأيكم في إمكانيات الذكاء الاصطناعي في تغطية جوانب الصحة؟ شاركونا أفكاركم!
تحسين الإجابة على الأسئلة الطبية المتعلقة بالقلب باستخدام نماذج لغوية متقدمة: نحو استراتيجيات مكافآت مبتكرة!
تمكن البحث الجديد من استخدام أساليب مبتكرة في نماذج اللغات الضخمة لتحسين دقة الإجابات الطبية المتعلقة بالقلب. تعتمد الاستراتيجية على مكافآت قائمة على معايير دقيقة لتحقيق نتائج مثمرة في الرعاية الصحية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
