في مجال الذكاء الاصطناعي، تُعتبر بيانات ما قبل التدريب لنماذج اللغات الضخمة (Large Language Models) بمثابة "الحمض النووي الرقمي" الذي يُشكل سلوكيات النموذج وقدراته، بل وحتى أنماط فشله. ومع ذلك، فإن تكوين هذه البيانات غالباً ما يظل غامضاً، مما يصعب عملية التدقيق اللاحق للبيانات المركبة أو أصولها.

في هذا السياق، تم تقديم مفهوم جديد تحت عنوان "جراحة خليط البيانات" (Data Mixture Surgery - DMS) التي تهدف إلى فهم تركيبة البيانات بناءً على النصوص المُنتاجة من نموذج معين. تم تطوير إطار عمل مُبتكر يُعرف باسم "LLMSurgeon"، الذي يعيد صياغة عملية جراحة خليط البيانات كمشكلة عكسية تحت فرضية تغيير التسمية.

بدلاً من دمج النتائج التي يوفرها المصنف بشكل مباشر، يعتمد LLMSurgeon على تقدير مصفوفة ارتباك "ناعمة" (soft confusion matrix) مصححة، ويُحل مسألة عكسية مقيدة لاسترداد التركيبة الأصلية بطريقة منهجية.

لضمان فعالية هذا الإطار، تم تقديم مجموعة تقييم تُعرف باسم "LLMScan"، وهي مجموعة مفتوحة المصدر تم تطويرها من نماذج لغوية ضخمة مع تركيبات بيانات واضحة. وقد أظهرت النتائج أن LLMSurgeon قادر على استرداد التركيبات المكانية بدقة عالية وفق بروتوكولات ثابتة.

إن عملنا يمثل خطوة عملية نحو تدقيق "الحمض النووي الرقمي" للنماذج الأساسية، دون الحاجة للوصول إلى بيانات تدريبها. لذا، هل أنتم مستعدون لاستكشاف هذه التقنية الجديدة؟