لقد أصبح الاعتماد على النماذج اللغوية الضخمة (Large Language Models) في الأنظمة المستقلة قرارًا متزايدًا في مجالات متعددة، من المساعدات الذكية إلى أنظمة اتخاذ القرار. ومع تزايد هذا الاعتماد، تظهر الحاجة إلى صياغات رمزية قابلة للتنفيذ والتحقق لضمان أن القرارات المتخذة تكون موثوقة وآمنة. في هذا السياق، تم تقديم منصة جديدة تعرف باسم NL-PDDL-Bench، وهي معيار متعدد المجالات يهدف إلى بناء صياغات طبيعية إلى PDDL (Planning Domain Definition Language) مع ضمان تنفيذ قابل للتحقق من قِبل المخطط.

تتميز NL-PDDL-Bench بصعوبتها القابلة للتحكم بناءً على عدد العناصر، مما يوفر إطارًا فعالًا لفهم أداء النموذج في مختلف الظروف. ولكن ليس هذا فحسب، بل تقدم المنصة إطار عمل مبتكر يُعرف باسم "المخطط في حلقة التغذية الراجعة"، الذي يستفيد من تشخيصات المخطط والتحقق لتعديل التصريحات غير القابلة للتنفيذ عبر تعديلات محلية.

تتضمن المنصة وصفة تحسين تعتمد على المخطط وتجمع بين تقنيات التكييف المراقب ذات الكفاءة في المعلمات، والأزواج المفضلة المستمدة من المخطط، وإصلاحات المخطط في الوقت الاستدلال، وكل ذلك دون الحاجة إلى استدعاءات المخطط على الإنترنت أثناء التدريب.

من خلال مجموعة تقييم موحدة، يقيم الباحثون الطرق المستخدمة من حيث القابلية للتحليل، والقدرة على الحل، وتماثل المواصفات، والاتساق على مستوى الخطة المعتمدة من المخطط. تشير التجارب على نماذج تمثيلية إلى مكاسب كبيرة في نجاح المخطط والاتفاق على مستوى الخطة، مع تحسينات في الصلابة تحت تغيير الصعوبة والتنوع عبر المجالات.

تسلط هذه النتائج الضوء على أهمية الصياغة القابلة للتحقق من الناحية الخارجية لتحقيق نشر موثوق للنماذج اللغوية الضخمة في أنظمة خطط الأمان والموثوقية. للحصول على الكود والبيانات، يمكنك زيارة الرابط.