ومع ذلك، كانت هناك تحديات في الأداء، حيث كانت عملية توليد النصوص تتم بشكل بطيء وبطريقة تسلسلية، مما أثّر على القدرة التنافسية لهذه النماذج. هنا يأتي دور BLT Diffusion (BLT-D)، وهي النسخة الأسرع من BLT التي تم تطويرها بإدخال تقنيات تدريب جديدة.
كيفية عمل BLT-D
تركز BLT-D على تقليل الوقت اللازم لتوليد النصوص من خلال استخدام تقنية الهدف المساعد لتدريب الكتل. هذه التقنية تمكّن النموذج من توليد عدة بايتات في وقت واحد أثناء خطوة فك التشفير، مما يقلل بشكل كبير من عدد التمريرات الأمامية المطلوبة لإنتاج تسلسل النص.
تحسينات مبتكرة
ولرفع مستوى جودة التوليد، تم اقتراح تحسينين جديدين مستلهمين من أساليب التشفير الاستباقي: 1. **BLT Self-speculation** (BLT-S) و 2. **BLT Diffusion+Verification** (BLT-DV). حيث يدفع BLT-S نموذج التشفير المحلي للاستمرار في توليد النصوص بعد حدود القطع العادية، ثم يتحقق منها بتمرير أمامي كامل. وعلى الجانب الآخر، BLT-DV يضيف خطوة تحقق لتأكيد دقة المحتوى الناتج بعد عملية التوليد.
بهذه الابتكارات، يمكن أن تحقق كل من BLT-D وملحقاته تقديرًا يقل عن 50% في تكلفة عرض الذاكرة مقارنةً بـ BLT التقليدي، مما يتيح المزيد من التطبيقات العملية لنماذج اللغات على مستوى البايت.
إنها فترة مثيرة في عالم الذكاء الاصطناعي، حيث يمكن لهذه التطورات أن تزيل العقبات الرئيسية، مما يمهد الطريق لاستخدام أكثر فعالية لنماذج اللغات في تطبيقات حقيقية. لا تتردد في مشاركتنا آرائكم حول مستقبل هذه التكنولوجيا وطبيعة تأثيرها على كيفية تفاعلنا مع الذكاء الاصطناعي.
