تعتبر نماذج اللغة الكبيرة (Large Language Models) أداة قوية في ترجمة اللغة الطبيعية إلى شيفرات برمجية للتنفيذ الأمثل، ولكن قد تظهر مشكلات خطيرة تتعلق بالفشل الصامت، حيث ينفذ الكود ويقدم حلولاً قابلة للتطبيق ولكن قد يحتوي على صيغ دلالية غير صحيحة. وهذا ما يُعرف بالفجوة بين القابلية للتطبيق والصحة الدلالية، والتي يمكن أن تصل إلى 90 نقطة مئوية في المسائل التركيبية.

في هذا السياق، يُقدم ReLoop كأداة ثورية تعالج هذه الفجوة من خلال آليتين تكاملتين. الأولى هي التوليد الهيكلي، الذي يقوم على تقسيم إنتاج الشيفرة إلى سلسلة من أربع مراحل من التفكير: الفهم، والتأطير، والتوليف، والتحقق. هذه العمليات تمنع الأخطاء في صياغة الكود منذ بدايتها.

أما الآلية الثانية، فهي التحقق السلوكي، الذي يكتشف الأخطاء التي قد تظل قائمة بعد عملية التوليد، من خلال اختبار ما إذا كانت الصياغة تستجيب بشكل صحيح لاضطرابات المعلمات المدعومة من المحللات. هذه الإشارة الدلالية الخارجية تتجاوز مراجعة نماذج اللغة الذاتية ولا تحتاج إلى حقائق مرجعية.

تشير النتائج إلى أن هذه الآليات complement تساعد بشكل ملحوظ، حيث تُسجل التوليد الهيكلي زيادة ملحوظة في الدقة تصل إلى 8.5 نقاط مئوية على معيار RetailOpt-190 باستخدام نموذج Claude Opus 4.6، بينما يهيمن التحقق السلوكي على الأخطاء المحلية مسجلاً زيادة تقدر بـ4.4 نقاط مئوية على معيار MAMO-ComplexLP.

عند دمجها مع عمليات استرداد التنفيذ التشخيصي، يصل ReLoop إلى شيفرات 100% قابلة للتنفيذ مع تحسين مستمر في الدقة على نماذج الأساس المعدلة للدردشة عبر ثلاثة معايير. كما يُبرز البحث قيودًا معروفة لنماذج التعليم الموجه بعناية، حيث تكون صيغ الإخراج القابلة للتعلم هشة أمام تحفيز سلسلة التفكير، وهو ما يتم توثيقه وتحليله في هذا البحث.

لجعل الأبحاث أكثر فعالية، تم إصدار معيار RetailOpt-190 والذي يحتوي على 190 سيناريو تركيبي للبرمجة الأمثل في مجال البيع بالتجزئة، مستهدفا التفاعلات متعددة القيود التي تفشل بها نماذج اللغة الكبيرة في كثير من الأحيان.