تعد الجداول واحدة من أكثر التحديات تعقيداً بالنسبة لنماذج اللغة الكبيرة (Large Language Models)، وذلك بسبب تفاعلاتها المنظمة بين الصفوف والأعمدة. في هذا السياق، تأتي ورقة بحثية جديدة لتسلط الضوء على أسلوب مبتكر يعزز من قدرة هذه النماذج على فهم البيانات المهيكلة.

تستخدم الطريقة الجديدة، المسماة Table-R1، التعلم المعزز (Reinforcement Learning) لتحسين فهم الجداول من خلال دمج الأدلة الإقليمية في خطوات التفكير. يعتمد البحث على تقنية تسمى ''التدريب المدعم المعزز المحسن بالأدلة الإقليمية'' (Region-Enhanced Supervised Fine-Tuning - RE-SFT) لتوجيه النماذج إلى المناطق المهمة في الجدول قبل بدء عملية توليد الإجابات. يتم دمج هذا مع تقنيات تفكير نصية ورمزية وبرمجية لتعزيز الدقة.

إضافةً إلى ذلك، يقدم البحث طريقة جديدة تُعرف باسم ''تحسين السياسة النسبية الواعية للجداول'' (Table-Aware Group Relative Policy Optimization - TARPO) التي تُدخل نظام مكافآت مختلط لتحقيق توازن ديناميكي بين دقة المناطق وصحة الإجابات. من خلال هذا النظام، يتم تقليص استهلاك الرموز في الردود بنسبة 67.5% مقارنة بالأساليب التقليدية.

نتائج التجارب أظهرت أن Table-R1 حقق تحسناً متوسطاً بنحو 14.36 نقطة عبر نماذج أساسية متعددة على ثلاثة مجموعات بيانات مرجعية، متفوقًا على النماذج الأساسية التي تحتوي على معلمات أكثر بعشر مرات. هذا التطور يعكس خطوة كبيرة نحو تحسين قدرات نماذج اللغة الكبيرة في التفكير الفعال داخل الجداول.