في عالم الذكاء الاصطناعي، يعد تخزين البيانات بكفاءة أمرًا بالغ الأهمية، وخاصةً عندما نتحدث عن التضمينات العصبية.

تقنية **كلارك هاش (Clark Hash)** تأتي كحل مبتكر لهذه المشكلة. فهي عملية تهدف إلى تخزين التضمينات بطريقة أكثر كفاءة من خلال تقليص مساحة التخزين اللازمة بشكلٍ ملحوظ.

كلارك هاش؟ ">كيف يعمل كلارك هاش؟


تبدأ العملية بتطبيع كل متجه ضمن قاعدة البيانات، مما يُهيئ البيانات لتطبيق تقنية **إسقاط جونسون-ليندنشتراوس (Johnson-Lindenstrauss)** المتناثرة المحددة. بعد ذلك، يتم قطع النتيجة وتخزينها كود ثابت العرض في شكل كود مُكمَّلة. من المثير أن عمليات الاستعلام تُبقى في شكل نقاط عائمة (floating point) ويتم تقييمها مقارنة بالرسومات المخزنة.

في الإعداد الافتراضي لتضمين الجمل البالغ 384 بُعدًا، يوفر كلارك هاش تخزين متجه البحث وفقًا لتشابه الكوساين في 48 بايت فقط، بدلاً من الحاجة إلى 1536 بايت لتخزين كثيف. بمعنى آخر، الحجم المطلوب للتخزين تقلص 32 مرة!

تقنية كلارك هاش ">مميزات تقنية كلارك هاش


لا تتطلب هذه الطريقة عملية تدريب أو مكتبات تعليمية أو إحصائيات خاصة بمجموعة البيانات قبل أن يتمكن المستخدمون من ذخيرة المتجهات الجديدة. ويشمل البحث أيضًا تنفيذًا بلغة **راست (Rust)** وتقييمًا لتشابه الجمل بلغات متعددة مع 9304 زوج من التسميات من 29 مجموعة مختلفة.

وبفضل ترميز MiniLM متعدد اللغات، حقق التعاون بين الرسومات بحجم 48 بايت درجات ارتباط ماكرو بيرسون (macro Pearson correlation) تُناهي 0.910 و0.946 على قواعد بيانات STS17 وSTS22.

ماذا يعني هذا للجميع؟


كلارك هاش ليست نظرية جديدة لجونسون-ليندنشتراوس، وليست بديلًا لمؤشرات الجوار الأقرب التقريبية، بل هي كود بسيط وفعال لتخزين التضمينات العصبية بشكل مضغوط.

في نهاية المطاف، تعد تقنية كلارك هاش خطوة هامة نحو تحسين كفاءة تخزين التضمينات العصبية، مما يفتح آفاق جديدة في عالم الذكاء الاصطناعي. ما رأيكم في هذا التطور؟ شاركونا في التعليقات.