في دراسة حديثة، تم إجراء مقارنة شيقة بين ثلاث نماذج لغوية كبيرة (Large Language Models) تُعرف باسم GPT-4.1، Claude Sonnet 4.6، وGemini 2.5 Flash. قُصد من هذه الدراسة فحص مدىConsistency (التوافق) في توليد وصفات التمارين الرياضية عبر الأنموذجين المذكورين.
تم تكييف كل نموذج للعمل في ظروف ثابتة (temperature=0)، حيث أُعطي كل نموذج ستة سيناريوهات سريرية لتوليد وصفات تمارين خلالها. على مدار 20 اختبارًا لكل نموذج، تم جمع 360 ناتج وجرى تحليلها عبر أربعة معايير رئيسية: الارتباط الدلالي، قابليّة إعادة الإنتاج، تصنيف FITT (Frequency, Intensity, Time, Type)، والتعبير عن السلامة.
أظهرت النتائج أن النموذج GPT-4.1 حقق أعلى درجات الارتباط الدلالي بنسبة (0.955)، يليه Gemini 2.5 Flash (0.950) وClaude Sonnet 4.6 (0.903). ورغم أن هذه الأرقام تشير إلى فروقات واضحة بين النماذج، فقد كان للنموذج GPT-4.1 أسلوب فريد في إنتاج النتائج حيث أنتجت وصفات تمارين فريدة بالكامل (100%) مع محتوى دلالي مستقر.
بينما نموذج Gemini 2.5 Flash أظهر تكرارًا ملحوظًا في المخرجات (27.5% من الوصفات كانت فريدة)، مما يشير إلى أن الدرجة العالية من التشابه جاءت نتيجة لتكرار النصوص بدلاً من التفكير المستمر.
علاوة على ذلك، أكد تعبير السلامة على مستويات مثلى بين جميع النماذج، مما يُظهر محدودية استخدامه كمعيار تفريقي.
تؤكد هذه النتائج على أهمية اختيار النموذج بشكل مدروس، حيث يتجاوز الأمر القرار التقني ليصبح قرارًا سريريًا حيويًا، مما يجعل سلوك المخرجات في ظروف التوليد المتكرر معيارًا أساسيًا للتطبيق الموثوق لممارسات وصفات التمارين المدعومة بالذكاء الاصطناعي.
تحليل مذهل: توافق نتائج وصفات التمارين الرياضية من نماذج الذكاء الاصطناعي
دراسة جديدة توضح كيف تختلف نماذج الذكاء الاصطناعي الكبرى في وضع وصفات تمارين متناسقة للمرضى. النتائج تكشف عن أهمية اختيار النموذج المناسب للوصول إلى نتائج دقيقة وموثوقة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
