في عصر تتسارع فيه تقدم نماذج اللغة الكبيرة (Large Language Models) في مجالات مثل الرياضيات والمعلوماتية، يبدو أن ثمة تحدٍ جديد يتجلى في اختبار قدرات الذكاء الاصطناعي في مجالات البحث المعقدة مثل الفيزياء الحديثة. هنا يأتي معيار CritPt، وهو مبادرة جديدة تهدف إلى تحديد مدى قدرة هذه النماذج على التعامل مع المهام البحثية التي تتطلب تفكيرًا متكاملًا وعميقًا.
تم تصميم معيار CritPt لتقييم نماذج الذكاء الاصطناعي في التغلب على 71 تحديًا بحثيًا معقدًا، تغطي مجالات متعددة من الفيزياء، بما في ذلك:
- الفيزياء الكمومية
- الفيزياء الفلكية
- فيزياء الحالة المكثفة
- الديناميكا الحيوية
- وغيرها.
كل مهمة مدروسة بعناية، حيث أنشأها أكثر من 50 باحثًا نشطًا في الفيزياء، وتهدف إلى تقديم إجابات يمكن التحقق منها آليًا وتجنب التخمين.
تشير النتائج الأولية إلى أن النماذج الحالية تطورت بشكل ملحوظ، لكنها لا تزال بعيدة عن تحقيق دقة موثوقة. على سبيل المثال، حقق أحدث نموذج GPT-5 (نسخة عالية) دقة متوسطها 5.7% فقط، بينما ارتفعت هذه النسبة إلى 10% عند استخدام أدوات برمجية.
هذا التقييم، المساهمة في فهم فحوى الفجوة بين القدرات الحالية للذكاء الاصطناعي ومتطلبات البحث الفعلي، يفتح أفقًا جديدًا أمام تطوير أدوات ذكاء اصطناعي علمية متقدمة تتناسب مع احتياجات الباحثين في مختلف مجالات الفيزياء.
إطلاق معيار CritPt: اختبار قدرات الذكاء الاصطناعي في الفيزياء الحديثة!
تم الكشف عن معيار CritPt الذي يهدف لاختبار نماذج اللغة الكبيرة (LLMs) في مهام بحثية معقدة في مجالات الفيزياء. هذا التقييم يسلط الضوء على الفجوة بين قدرات الذكاء الاصطناعي واحتياجات الباحثين الفعلية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
