ثورة جديدة في نماذج اللغة: CoFrGeNet يوفر أداءً متميزًا بعدد أقل من المعاملات!

يُعتبر نموذج الترنسفورمر (Transformer) الخيار الأفضل في مجالات توليد اللغة، لكن innovation الجديد في هذا المجال يستحق الوقوف عنده. نقدم لكم CoFrGeNet، شبكة لتوليد اللغة تعتمد على مفهوم الكسور المستمرة.

تمثل هذه البنية الجديدة تقدماً كبيراً لأنها تعرض فئة جديدة من الوظائف لنمذجة البيانات، وتهدف إلى استبدال بعض العناصر المعمارية التقليدية لكل من الشبكات متعددة الرؤوس (Multi-head Attention) والشبكات التغذية الرجعية (Feed-Forward Networks) داخل كتلة الترانسفورمر، مما يتطلب عدد أقل بكثير من المعاملات.

تم تطوير مكونات معمارية مبتكرة تعتمد على هذه الفئة الوظيفية، مما يسمح بتحقيق كفاءة أعلى ودقة أكبر مقارنة بالطرق التقليدية باستخدام تقنيات PyTorch العادية. أحد أبرز ميزات CoFrGeNet هو سهولة دمجه في عمليات التدريب المعتمدة على نماذج الترانسفورمر الموجودة بالفعل، مما يجعل من السهل وضعها في التطبيقات الصناعية الكبيرة دون الحاجة لتغييرات جذرية.

أجريت تجارب على نموذجين مختلفين تماماً من الترانسفورمر: GPT2-xl (1.5 مليار) وLlama3 (3.2 مليار). حيث تم إعداد النموذج الأول على بيانات OpenWebText وGneissWeb، بينما تم إعداد النموذج الثاني على مجموعة متنوعة من تسع مجموعات بيانات مختلطة.

تظهر النتائج أن أداء نماذج CoFrGeNet في مهام التصنيف، والأسئلة والأجوبة، وفهم النصوص، يتنافس مع النماذج الأصلية، بل ويتفوق أحياناً عليها، كل ذلك مع تقليل عدد المعاملات إلى ما بين ثلثي ونصف ما كان متبعًا سابقاً، ووقت تدريب أقصر بكثير.

يُظهر ذلك الإمكانيات الكبيرة التي يمكن أن تحققها تطبيقات مستقبلية مُخصصة لهذا التصميم المعماري، مما يبشر بمستقبل واعد لنماذج توليد اللغة الفعالة.

ثورة جديدة في نماذج اللغة: CoFrGeNet يوفر أداءً متميزًا بعدد أقل من المعاملات!

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

إطلاق Star Elastic من NVIDIA: نقطة التفتيش الثورية التي تجمع ثلاثة نماذج تفكير عملاقة!

تعرف على ZAYA1-8B: نموذج الذكاء الاصطناعي الثوري في مجال التفكير والتحليل

تعلم المهارات الثابتة: الطريق الجديد لوكلاء الذكاء الاصطناعي القوي