في السنوات الأخيرة، أصبحت نماذج اللغات الضخمة (Large Language Models) تعتلي عرش تكنولوجيا الذكاء الاصطناعي، حيث تُستخدم بشكل متزايد كأدوات لتخطيط الأنظمة الروبوتية. ولكن، تكمن في هذه الاستخدامات مخاطر جسيمة قد تهدد سلامة العمليات الروبوتية.

أُجريت دراسة جديدة تحت عنوان DESPITE، تهدف إلى تقييم التخطيط الآمن بطريقة منهجية، حيث تشمل تجاربها 12,279 مهمة مختلفة تضم مخاطر جسدية ونظرية. النتائج كانت مثيرة للقلق: على الرغم من القدرات التخطيطية الممتازة التي تمتلكها بعض النماذج، فإن السلامة تُعد مسألة مفتوحة للمناقشة.

فحتى أفضل نموذج لتخطيط المهام لم يتمكن من تقديم خطة صحيحة سوى في 0.4% من المهام، لكنه فعّل خططًا خطرة بنسبة تصل إلى 28.3%. لفتت الدراسة الانتباه أيضًا إلى أن القدرة على التخطيط تحسنت بشكل ملحوظ مع حجم النموذج، لكن الوعي بالمخاطر لم يشهد نفس الارتفاع، مما يسلط الضوء على علاقة معقدة بين هذين العاملين.

أظهرت بعض النماذج الخاصة - التي تعمل باستخدام استدلال متميز - وعيًا ملحوظًا بالمخاطر، حيث تصل نسبتها إلى 71-81%، بينما تظل النماذج الأخرى (الخاصة وغير الخاصة) أدنى من 57%.

في ظل هذه النتائج، يُبرز التقرير أهمية تحسين وعي السلامة كالتحدي المركزي في نشر نماذج التخطيط في الأنظمة الروبوتية. فمع اقتراب القدرة التخطيطية للنماذج المتقدمة من التشبع، تظل سلامة التخطيط عنصرًا أساسيًا لا يمكن تجاهله. ما هي توقعاتك حول هذه التطورات؟ شاركونا بآرائكم في التعليقات!