تشهد أنظمة الحوار الطبي شيوعًا متزايدًا، ولكنها غالباً ما تقتصر على نمط واحد من الأسئلة والأجوبة، مما يؤثر على واقعية الحوار وقدرته على خدمة متحدثي لغات متعددة. لمواجهة هذه التحديات، تم تقديم IndicMedDialog، مجموعة بيانات جديدة طموحة تُعنى بحوارات طبية متعددة الأدوار، والتي تشمل الإنجليزية وتسع لغات هندية متنوعة، مثل: الأساميه (Assamese)، البنغالية (Bengali)، الغوجاراتية (Gujarati)، الهندية (Hindi)، الماراثية (Marathi)، البنجابية (Punjabi)، التاميلية (Tamil)، التيلوجوية (Telugu)، والأردية (Urdu).

توسع هذه المجموعة بشكل كبير من مجموعة بيانات MDDial (Medical Dialogue Dataset) من خلال إضافة استشارات توليدية عبر نماذج اللغات الضخمة (Large Language Models) وبفضل استخدام TranslateGemma لترجمة المحتوى، حيث تم التحقق من صحة الترجمات بواسطة متحدثين أصليين وتعديلها من خلال خط سلاسل معالجة بعدية لتحسين الأخطاء الصوتية والمعجمية وتصحيح تباعد الحروف.

بناءً على هذه مجموعة البيانات، تم تحسين نموذج IndicMedLM من خلال تعديل فعّال للمعلمات لنموذج لغوي صغير مضغوط، بحيث يشمل سياقاً مبدئياً للمرضى يمكن أن يُفصّل بناءً على الأعراض المطروحة. وكانت نتائج التقييم مؤثرة، حيث تمت مقارنة الأداء مع أسس مُتعددة اللغات لا تعتمد على الذاكرة، إضافة إلى إجراء تحليل منهجي للأخطاء عبر عشر لغات، وتم التحقق من جدوى التصاريح الطبية من خلال تقييم مختصين في مجال الطب.

تتجه هذه التطورات نحو تجسيد رؤية رعاية صحية شاملة وسريعة، مما يعزز الاتجاه نحو جعل العلاج الطبي قابلاً للوصول للفئات الناطقة بلغات أكثر تنوعًا. إذا كنتم تتساءلون عن كيفية تأثير هذه التطورات على النظام الصحي، فلا تترددوا في التفاعل معنا.