على الرغم من التقدم الذي أحرزته نماذج اللغة المتعددة الوسائط (MLLMs) في الآونة الأخيرة، إلا أن قدراتها على التفكير ما زالت محدودة بفعل الإشراف الثابت. حيث يعتمد التعليم التقليدي على تنبيهات ثابتة، وقواعد، ونماذج مكافآت، مما يعيق قدرة النموذج على التكيف أثناء التدريب. في هذا السياق، تم اقتراح إطار Evo-PI، الذي يعد ثورة في مجال التوجيه الذكي، حيث يعتبر مبادئ التفكير إشارات إشرافية قائمة على اللغة يُمكن تطويرها وتقييمها بشكل دوري.

بدلاً من الاعتماد على مكافآت ثابتة، يسمح Evo-PI بوجود حلقة تطورية مشتركة تُوجه فيها المبادئ تفكير النموذج، ويمكن أن تُصقل سلوكيات النموذج في المقابل المبادئ التي تُشرف عليها. هذه الآلية الديناميكية لتوجيه النموذج تسهم في تحسين دقة التفكير، وتسمح للإشراف بالتكيف تدريجياً مع قصور النموذج.

تم تطبيق Evo-PI على مجال الأسئلة والأجوبة البصرية الطبية، الذي يتطلب تفكيراً منظمًا بين الصور والنصوص. أظهرت النتائج، عبر ثمانية معايير وعدد من النماذج الأساسية، تحسنًا ملحوظًا في الدقة بلغ حتى 24.6%. تشير هذه النتائج إلى أن نظام الإشراف القائم على المبادئ القابلة للتطور يوفر نموذجًا قابلاً للتوسع والتطبيق في تدريب التفكير المتخصص في نماذج اللغة الكبيرة.

للمزيد حول هذا الابتكار المثير، يمكنك زيارة رابط الكود. ما رأيكم في هذا التطور؟ شاركونا في التعليقات.