تزايدت أهمية تنسيق البيانات في عملية تدريب نماذج اللغات الضخمة (Large Language Models) في السنوات الأخيرة، حيث أصبح التركيز ليس فقط على حجم البيانات ولكن أيضًا على كيفية تكوينها. في هذا السياق، أُعيد تعريف طريقة تنسيق البيانات بواسطة تقنية جديدة تسمى GEM (Geometric Entropy Mixing).

تحديات تصنيف البيانات الحالية غالبًا ما تتعلق بنظام التصنيف البشري، الذي يعاني من مشكلات في عدم التوافق بين الأنطولوجيا، فضلاً عن فشل التقسيمات الإقليدية في التعامل مع الأنماط المختلفة للأبعاد. لذا، قدم الباحثون إطار GEM الذي يعيد صياغة تنظيم البيانات كمشكلة تباينية على الكرة الزائدية، مع تضمين مُنظم مختلط للبقاء.

من خلال تفكيك الأولويات التوليدية وتحسين الهدف عبر خوارزمية خالية من المتناقضات (MM)، تتمكن GEM من مواجهة مشكلة انهيار الكتل وتحقيق اكتشافات متوازنة للهياكل الدلالية التي تكون غير مرئية بالأساليب الإقليدية.

علاوة على ذلك، تم استخدام تقنية التقطير بين المعلم والطالب لزيادة دقة هذا النظام الهندسي ليشمل مجموعات بيانات ضخمة على الويب، وتم تقديم درجة التأثير الهندسي (Geometric Influence Score) لتوليد تصنيفات مفهومة.

أظهرت التجارب مع نماذج تحتوي على 1.1 مليار معلمة أن GEM تحقق مستوى جديدًا من التميز عند دمجها مع استراتيجيات خلط مثل DoReMi وRegMix، مما يحسن الدقة المتوسطة للتعليمات بنسبة تصل إلى 1.2%. نتيجة لذلك، توفر هذه التقنية نظام إحداثيات قوي لتنسيق البيانات بصورة متوقعة وفعالة.