في عالم الذكاء الاصطناعي، أسهم التعلم المعزز (Reinforcement Learning) في تحقيق إنجازات مذهلة في نماذج اللغة الكبيرة (LLMs)، خاصة عندما يكون من السهل حساب المكافآت تلقائيًا، كما في توليد الأكواد. ولكن عندما يتعلق الأمر بالحوار الطبي المفتوح، تصبح الأمور أكثر تعقيدًا. فالتغذية الراجعة هنا غالبًا ما تكون غير واضحة، تعتمد على السياق، وصعبة الاختصار إلى إشارة وحيدة.

في هذا الإطار، يبرز InfiMed-ORBIT كحل مبتكر، حيث يقدم طريقة تدريب تدريجية تعتمد على التقييمات. يدمج ORBIT بين بناء الحوارات الطبية وتوليد معايير تقييم ديناميكية تعتمد على الحالات، مما يوفر إرشادات مرنة لتدريب التعلم المعزز. وهذه الطريقة تختلف عن الأساليب التي تعتمد على قواعد المعرفة الطبية الخارجية أو القواعد اليدوية، حيث يمكن دمجها بسهولة مع نماذج اللغة العامة، مما يقلل من الحاجة لجلسات ضبط محددة للمهام.

ببساطة، باستخدام فقط 2000 نموذج تدريب، تمكن ORBIT من رفع معدل أداء نموذج Qwen3-4B-Instruct في HealthBench-Hard من 7.0 إلى 27.5. وهذا يعد إنجازًا كبيرًا حيث يحقق أداءً متفوقًا مقارنة بالنماذج الأخرى ذات الحجم المماثل، مع الحفاظ على جودة الاستشارات المتزايدة مع توسع شمولية المعايير.