تعتبر أنظمة استرجاع الجداول المبنية على نموذج المحولات (Transformers) واحدة من الأدوات الأساسية في معالجة البيانات الحديثة، إذ تقوم بتحويل الجداول المهيكلة إلى تسلسلات رموز (Token Sequences) مما يجعل عمليات الاسترجاع حساسة لاختيار التنسيق المستخدم. ولكن، تبرز المشكلة الحقيقية عندما نكتشف أن تسلسلات تعبيرية متساوية دلالياً، مثل CSV وTSV وHTML وMarkdown وحتى DDL، يمكن أن تُنتج تمثيلات (Embeddings) واسترجاع بيانات مختلفة بشكل ملحوظ.

في هذا السياق، قمنا بمعالجة هذه القضية عبر اعتبار تمثيل التنسيق كوجهات نظر ضوضائية لنفس الإشارة الدلالية المشتركة. وقد استخدمنا ما يُعرف بالمتوسط المركزي (Centroid) كتمثيل مستهدف قياسي، مما يساعد على تقليل التباين المرتبط بالتنسيقات واستعادة المحتوى الدلالي المشترك بين التنسيقات المختلفة. التجارب أظهرت أن التمثيلات المركزية تتفوق على التنسيقات الفردية في المقارنات الزوجية العامة عبر نماذج مثل MPNet وBGE-M3 وReasonIR وSPLADE.

علاوة على ذلك، قدمنا مُكيفاً خفيف الوزن للزجاجة المتبقية (Residual Bottleneck Adapter) يعمل على خريطة التمثيلات الأحادية التنسيق نحو أهداف المركزية، مع الحفاظ على التغيرات وضمان تقييد التغاير. هذه الاستراتيجية تُحسن المتانة لعدة مسترجعين كثيفي الصفات، بينما تكون المكاسب أضعف في استرجاع الكلمات الأساسية.

تُظهر هذه النتائج أن حساسية التنسيق تُعَد واحدة من المصادر الرئيسية لتباين الاسترجاع، وتوضح الإمكانيات الواعدة للتصحيح الهندسي اللاحق كوسيلة لاسترجاع البيانات الجداولية المستقرة أمام التغيرات التنسيقية. لمزيد من التفاصيل، يمكن للمهتمين الاطلاع على الكود والمجموعات البيانية والنماذج المتاحة على [رابط الكود](https://github.com/KBhandari11/Centroid-Aligned-Table-Retrieval).