في الآونة الأخيرة، أعلن [باحثون](/tag/باحثون) عن نتائج مثيرة تسلط الضوء على قدرة الجيل الجديد من [نماذج [اللغات](/tag/اللغات) الضخمة](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)-الضخمة) ([LLMs](/tag/llms)) في مجالات [التخطيط](/tag/التخطيط). على الرغم من أن [دراسات](/tag/دراسات) سابقة أكدت أنه لا يمكن لهذه [النماذج](/tag/النماذج) حل حتى مهام [التخطيط](/tag/التخطيط) البسيطة بشكل موثوق، إلا أن النتائج الأخيرة تبدو مغايرة تماماً.

تضمنت [الدراسة](/tag/الدراسة) [تقييم](/tag/تقييم) ثلاثة [عائلات](/tag/عائلات) من [نماذج [اللغات](/tag/اللغات) الضخمة](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)-الضخمة) على مجموعة من مهام [التخطيط](/tag/التخطيط) الصعبة، استناداً إلى [المعايير](/tag/المعايير) الدقيقة للمنافسة الدولية في [التخطيط](/tag/التخطيط). وتم التأكد من [صحة](/tag/صحة) الحلول باستخدام [أدوات](/tag/أدوات) [تقييم](/tag/تقييم) موثوقة، كما تم إنشاء مهام جديدة تماماً لتجنب تلوث البيانات، وتمت مقارنة [الأداء](/tag/الأداء) مع المخططين التقليديين الرائدين.

كانت النتائج مذهلة، حيث أظهر [نموذج Gemini](/tag/[نموذج](/tag/نموذج)-gemini) 3.1 Pro أداءً أفضل من أقوى المخططين التقليديين، حيث حل 245 مهمة من أصل 360، بينما حقق [نموذج GPT](/tag/[نموذج](/tag/نموذج)-gpt)-5 أداءً قريباً من هذه [المعايير](/tag/المعايير).

عند اختبار [التخطيط](/tag/التخطيط) الرمزي البحت، أي عندما تمت إخفاء جميع [المعلومات](/tag/المعلومات) الدلالية من الأوصاف، تدهور [الأداء](/tag/الأداء) لكن [Gemini 3.1](/tag/gemini-31) Pro ظل تنافسياً. كما أن النتائج على مدى أجيال النماذج، بدءًا من [GPT-3](/tag/gpt-3).5 الذي لم يحل أي مهمة إلى [GPT](/tag/gpt)-5، تكشف عن اتجاه متصاعد مثير للإعجاب.

السؤال المطروح الآن هو: ما مدى [تطور](/tag/تطور) هذه القدرات في المستقبل؟ هل نحن على أبواب ثورة جديدة في عالم [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي)؟ ننتظر آرائكم في [التعليقات](/tag/التعليقات)!