يزداد نمو النماذج المبنية على المحولات بشكل متسارع، وأصبحت نماذج اللغة العملاقة (Large Language Models-LLMs) الآن تتوسع لتصل إلى تريليونات من المعاملات. وهذا الأمر يتطلب تدريبًا عبر الآلاف من وحدات المعالجة الرسومية (GPUs) باستخدام استراتيجيات هجينة معقدة مثل توازي البيانات وتوازي الشدات والتوازي عبر الأنابيب.

إن إنشاء نقاط التفتيش لحفظ الحالة الضخمة الموزعة يُعد أمرًا حيويًا لمجموعة واسعة من الاستخدامات، مثل تحسين المرونة، واستئناف وإيقاف التدريب، والتحقيق في سلوكيات التدريب غير المرغوبة، وتفسير تطور النماذج. ومع ذلك، فإن الحلول الحالية لنقاط التفتيش غالباً ما تُعامل حالة النموذج ككتل ثنائية غير شفافة، متجاهلة "الاختلاف الثلاثي الأبعاد" للهياكل البيانية الأساسية، مما يؤدي إلى أوقات استجابة طويلة نتيجة التوقفات التي تحدث جراء نقليات البيانات والتنقل غير الفعال.

إدخال تقنية DataStates-LLM يمثل ثورة في بنية نقاط التفتيش، حيث تعتمد على مزودي الحالة (State Providers) لفصل تجريد الحالة عن حركة البيانات. تستفيد DataStates-LLM من الثبات في معلمات النموذج خلال تمريرات الفائدة والارتجاع، فتقوم بإنشاء "لقطات غير معاقة" بطريقة غير مزعجة. من خلال مقدمي الحالة، نقوم بكفاءة بتجميع الشظايا المكسورة والمتنوعة وتداخل تسلسل البيانات مع عمليات الإدخال والإخراج الضخمة للشدات.

لقد تم تقييم DataStates-LLM على نماذج تحتوي على 70 مليار معلمة باستخدام 256 وحدة معالجة رسومية A100 بسعة 40 جيجابايت. وتشير النتائج إلى أن DataStates-LLM تحقق زيادة تصل إلى 4 أضعاف في سرعة إنشاء نقاط التفتيش وتقلل من زمن التدريب بشكل إجمالي بنسبة تصل إلى 2.2 مرة مقارنةً بحلول أخرى بارزة، مما يخفف فعليًا من اختناق التسلسل والتنوع في تدريب نماذج اللغة العملاقة على نطاق واسع.