في دراسة جديدة مثيرة، أُجريت مقارنة استمرّت لمدة ثمانية أسابيع بين 68 جيلًا من ملفات HTML، تم جمعها عبر 17 تجربة عامة في مشروع "معركة HTML للذكاء الاصطناعي"، والتي تمت من ديسمبر 2025 وحتى فبراير 2026. تمت دراسة أربع عائلات نماذج لغوية رئيسية، وهي GPT وGemini وGrok وClaude، من خلال بروتوكول واجهة عامة ثابتة دون أي تعليمات مخصصة أو ضبط للشخصية أو تلميحات إصلاح.
كل ناتج تم تقييمه من خلال مقطع فيديو تم عرضه على المتصفح باستخدام تقييمات بشرية وطبقة تقييم ذاتية من Gemini تركز على الالتزام بالتوجيه، الصحة الوظيفية، وجودة واجهة المستخدم. وقد تم حزمة النتائج في بروتوكول موحد للاستخدام على وسائل التواصل الاجتماعي بما في ذلك X (تويتر) وTikTok وYouTube.
كما تم استخدام أدوات تتبع لاجراء تحليلين تنبؤيين مدعومين، أحدهما على مستوى التجربة للنماذج المدهشة في X خلال 24 ساعة، وآخر على مستوى التوليد لقياس مليون من السطور HTML. واستنتجت الدراسة أن Claude كان الأقوى والأكثر تماسكًا، حيث سجل أعلى أداء في 9 من أصل 17 توجيهاً تحت الدرجات البشرية.
لكن لم يكن هناك علاقة بين طول وقت التفكير وجودة النتائج. وقد ظهر Gemini كقاضٍ أكثر تسامحًا بشكل ملحوظ مقارنةً بالتحكيم البشري فيما يتعلق بالصحة الوظيفية وأداء النموذج بشكل عام. كما أن النموذج الخاص بالتقييمات على X كان ضعيفًا تحت اختبار المصداقية بعد الفحص.
دلائل الدراسة تشير إلى أن المتغيرات الفنية والسمعية المختارة قبل النشر لم تكن كافية لتوقع مدى وصول X خلال 24 ساعة، بينما كانت تعقيد رمز HTML مدفوعًا بشكل أكبر بنموذج العائلة بدلاً من صياغة الاستعلام. تبقى هذه المقارنات مشروطة بتغيرات الواجهة العامة، واختلافات مسارات الوصول، ووجود مقيّم بشري أساسي واحد.
تحدي الذكاء الاصطناعي: دراسة مثيرة لتقييم النماذج اللغوية على الإنترنت!
تقدم هذه الدراسة مقارنة مثيرة لمدة ثمانية أسابيع بين 68 جيلًا من ملفات HTML من أربع عائلات نماذج لغوية رائدة. النتائج تقدم رؤى جديدة حول فعالية هذه النماذج في تجربة المستخدم وأدائها في وسائل التواصل الاجتماعي.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
