في عالم معالجة البيانات، تُعتبر تحويلات النصوص إلى SQL (Text-to-SQL) من التحديات الكبرى. فمع الحاجة إلى دمج جداول متعددة لأداء عملية التحويل بدقة، يصبح استرجاع مجموعة الجداول المناسبة جزءًا حاسمًا لضمان الأداء الجيد. هنا تأتي تقنية CORE-T (COherent REtrieval of Tables) كحل مبتكر.

تستهدف CORE-T إطارًا مفتوحًا حيث يتم التعامل مع استفسارات تستند إلى مجموعات جداول كبيرة ومتنوعة مأخوذة من مصادر متعددة، دون وجود إشارات واضحة مثل معرفات قواعد البيانات. في هذه الظروف، يُظهر استخدام أسلوب الاسترجاع الكثيف (Dense Retrieval) قدرة عالية على استرجاع المعلومات، لكنه يعود بعدد كبير من الجداول غير المطلوبة، بينما تتطلب البدائل المدركة لعمليات الربط (Join-aware) فرضيات إضافية مرتفعة التكلفة من حيث الأداء.

تقنية CORE-T تتميز بإطار عمل يمكن توسيعه، حيث تضيف بيانات وصف الغرض للجداول من نماذج اللغات الضخمة (Large Language Models) وتقوم بحساب تخزين خفيف لتوافق الجداول مسبقًا. وعند استخدامه، يُجري الاسترجاع الكثيف (DR) عملية العودة إلى أفضل K من المرشحين، ومن ثم تُختار مجموعة مترابطة وقابلة للتجميع من خلال استدعاء واحد لنموذج اللغة الضخم، مما يعزز دقة الربط ويقلل من الجداول المسترجعة بنسبة تصل إلى 40%.

عبر تجارب مع بيانات مثل Bird وSpider وMMQA وBeaver، أثبتت تقنية CORE-T زيادة ملحوظة تصل إلى 22.7 نقطة في دقة اختيار الجداول، 24.4 نقطة في دقة تنفيذ الجداول متعددة، مع استخدام أقل لتوكنات الاختيار مقارنة بأساليب أخرى تركز على نماذج اللغة الضخمة.

تعتبر CORE-T خطوة كبيرة نحو تحسين الأداء في تحويل النصوص إلى SQL، مما يوفر تجربة أكثر سلاسة وفاعلية في التعامل مع البيانات.

ما رأيكم في هذا التطور؟ شاركونا في التعليقات!