في عالم الذكاء الاصطناعي، تعتبر مشكلات إرضاء البوليانات (SAT) من بين الأكثر تحديًا، ومع ذلك، برزت تقنية جديدة تعرف باسم "Cube-and-Conquer" (C&C) كحل فعال لهذه التحديات. ولكن ما لم يُعرف حتى الآن هو قدرة نماذج المحولات (Transformers) على تعلم استراتيجيات التجزئة الفعالة.

لذلك، نقدم في هذا المقال إطار عمل ما بعد التدريب العصبي الرمزي (Neuro-Symbolic Post-Training) الذي يهدف إلى تحقيق هذا الهدف. يعتمد هذا الإطار على خط أنابيب تنسيق البيانات المستند إلى تقنية مونت كارلو ترويج الشجرة (MCTS)، حيث يستخدم خوارزميات رمزية لاستكشاف قرارات الفصل عبر صيغ منافسات SAT، مما يؤدي إلى إنتاج بيانات تفضيل تستند إلى إحصاءات الحلول معززًا بخطوات استدلالية من نموذج معلم.

تشمل العملية تدريبًا بعديًا من مرحلتين: تحسين دقيق تحت إشراف (SFT) يليه تحسين تفضيلات مباشر (DPO). هذا النهج يمكّن نموذجاً يضم 4 مليارات معلمة من تحقيق نتيجة تصل إلى 53 في اختبار pass@5 على 100 معيار لمنافسات SAT، متجاوزًا نماذج LLM الرائدة مثل Claude-Sonnet-4 التي حققت 50، وملائمةً لأفضل خوارزمية رمزية (53).

قد أظهرت الدراسات المختلفة أن SFT بمفرده يمكن أن يُحسن النتيجة من 46 إلى 51، مع إضافة DPO استقراراً لنتائج إضافية. ومن المثير للاهتمام أن تحليل التنوع في القرارات الأولى يُظهر أن SFT هو الذي يساهم في تباين القرارات الجذرية، مما يوفر تغطية متكاملة على الطرق الرمزية الحاسوبية.

هذه النتائج تفتح آفاقاً جديدة في كيفية تدريب نماذج المحولات على اتخاذ قرارات تجزئة فعالة في مجال تقليدي الهيمنة فيه على الأساليب الرمزية، مما يشير إلى مستقبل مشرق لتقنيات الذكاء الاصطناعي في حل المشاكل المعقدة.