في الآونة الأخيرة، أعلن باحثون عن نتائج مثيرة تسلط الضوء على قدرة الجيل الجديد من نماذج اللغات الضخمة (LLMs) في مجالات التخطيط. على الرغم من أن دراسات سابقة أكدت أنه لا يمكن لهذه النماذج حل حتى مهام التخطيط البسيطة بشكل موثوق، إلا أن النتائج الأخيرة تبدو مغايرة تماماً.

تضمنت الدراسة تقييم ثلاثة عائلات من نماذج اللغات الضخمة على مجموعة من مهام التخطيط الصعبة، استناداً إلى المعايير الدقيقة للمنافسة الدولية في التخطيط. وتم التأكد من صحة الحلول باستخدام أدوات تقييم موثوقة، كما تم إنشاء مهام جديدة تماماً لتجنب تلوث البيانات، وتمت مقارنة الأداء مع المخططين التقليديين الرائدين.

كانت النتائج مذهلة، حيث أظهر نموذج Gemini 3.1 Pro أداءً أفضل من أقوى المخططين التقليديين، حيث حل 245 مهمة من أصل 360، بينما حقق نموذج GPT-5 أداءً قريباً من هذه المعايير.

عند اختبار التخطيط الرمزي البحت، أي عندما تمت إخفاء جميع المعلومات الدلالية من الأوصاف، تدهور الأداء لكن Gemini 3.1 Pro ظل تنافسياً. كما أن النتائج على مدى أجيال النماذج، بدءًا من GPT-3.5 الذي لم يحل أي مهمة إلى GPT-5، تكشف عن اتجاه متصاعد مثير للإعجاب.

السؤال المطروح الآن هو: ما مدى تطور هذه القدرات في المستقبل؟ هل نحن على أبواب ثورة جديدة في عالم الذكاء الاصطناعي؟ ننتظر آرائكم في التعليقات!