في عالم الذكاء الاصطناعي، يمثل الاستدلال القدرة الأساسية التي تحتاجها التطبيقات المختلفة، حيث تعتمد العديد من البرمجيات على نماذج اللغات الكبيرة (Large Language Models) لتوليد استنتاجات دقيقة. ومع ذلك، غالبًا ما تنتج هذه النماذج خطوات استنتاج خاطئة أو زائدة، مما يدفع الباحثين للبحث عن حلول فعالة.

قدّم الباحثون إطارًا جديدًا لفهم الاستدلال الطبيعي من خلال صياغته كمشكلة بحثية، حيث تعتبر الإجابة النهائية هي الدليل الصحيح نفسه. وهنا يأتي دور خوارزمية A*، التي تضمن العثور على المسار الأكثر كفاءة نحو الهدف.

استنادًا إلى هذا المفهوم، قام الفريق بتجربة تقنيتين تدريبيتين: الصقل الخاضع للإشراف (Supervised Fine-Tuning) على آثار تنفيذ خوارزمية A*، والتعلم المعزز (Reinforcement Learning) باستخدام نماذج المكافآت المستنيرة بخوارزمية A*.

تظهر النتائج الأولية أن نماذج Llama-3.2 في نطاق 1B–3B قد حققت تحسنًا ملحوظًا بفضل التدريب المتعلق بـ A*، حيث ارتفعت نسبة الدقة من قلة إلى تجاوز أداء نموذج DeepSeek-V3.2، والذي يعتبر أكبر حجمًا.

ومع ذلك، يكشف تحليلنا عن وجود صفقة متبادلة؛ حيث أن مكافآت الصحة البسيطة تعظم الدقة، بينما تشير الإشارات المستنيرة بـ A* إلى التوازن بين الدقة والكفاءة. الجدير بالذكر أن النماذج المدربة باستخدام تقديرات غير مثالية أظهرت دقة فائقة في المساحات البحثية الأكبر.

تشير هذه النتائج إلى اتجاه واعد نحو تطوير استدلال مبني على مبادئ مستمدة من الخوارزميات البحثية الكلاسيكية، مما يشير إلى مستقبل مشرق في هذا المجال.