في عالم الرعاية الصحية، تعتبر البيانات التي ينتجها المرضى (Patient-generated data) كنزًا دفينًا من المعلومات القيمة حول تجاربهم الحياتية وسياقاتهم الاجتماعية، لكنها غالبًا ما تأتي بشكل غير منظم، مما يحد من قدرتنا على استخدامها في الأبحاث المتعلقة بالنتائج المرضية. في السعي لمعالجة هذا التحدي، تم تقديم نموذجين سابقين، الأول PV-Miner كمعيار استرشادي، والثاني PVMinerLLM لاستخراج البيانات بشكل منظم، لكن كانت هناك قيود في استخدام التنميط الفائق (Supervised Fine-Tuning) .

الآن، نقدم لكم PVminerLLM2، مجموعة من النماذج اللغوية الكبيرة (Large Language Models) المتطورة التي تقدم تحسينات ملحوظة في استخراج بيانات المرضى. هذا النموذج يعتمد على تقنيات تفضيل جديدة تهدف إلى معالجة الأخطاء الحرجة المتعلقة بالتوكن (Token-Critical Errors) والتي كان يصعب تجاوزها باستخدام التنميط الفائق فقط.

ميزات PVminerLLM2:">أهم ميزات PVminerLLM2:


1. **هدف تفضيل مبتكر**: يعتمد النموذج على مبدأ التحفيز على مستوى التوكن الذي يمنع تدهور احتمالية التوكنات بسبب التسلسل الهرمي للتفضيل.
2. **بناء الأزواج البصرية الواعية**: يتم بناء أزواج التفضيل بطريقة تتيح التقاط التمييزات الضئيلة بشكل أفضل، مما يعزز دقة البيانات المستخرجة.
3. **وزن أهمية التوكنات**: إدخال وزن خاص لكل توكن لمواجهة مشكلة عدم التوازن في التوكنات وتوزيع الفئات.

عبر أحجام نماذج متعددة، أثبتت PVMinerLLM2 تفوقها على المعايير القوية السابقة، محققة مكاسب تصل إلى 4.43% (Code)، 3.50% (Sub-code)، و1.55% (Span). تتجاوز هذه النماذج أيضًا أساليب تحسين التفضيل الحالية. معلومات إضافية، بما في ذلك الكود والنماذج المدربة، متاحة للجمهور على رابط GitHub.

**ما رأيكم في هذا التطور؟ هل تعتقدون أن نماذج الذكاء الاصطناعي ستحدث تحولًا كبيرًا في كيفية إدارة البيانات الصحية؟ شاركونا في التعليقات!**