ثورة جديدة في نماذج اللغة: تحسين التعميم الطولي باستخدام الانتباه المتناثر الهرمي

تواجه نماذج اللغة تحديات كبيرة عند معالجة السياقات الطويلة. تقدم الأبحاث الأخيرة أساليب مبتكرة تعزز من قدرتها على تعميم الطول، مما يسهم في تحسين الأداء بشكل ملحوظ.

تمثل معالجة السياقات الطويلة أحد أبرز التحديات التي تواجه نماذج اللغة الحديثة. في حين أن نماذج ترانسفورمر (Transformers) التقليدية تعاني من تعقيد رباعي وسوء في تعميم الطول، تظهر معماريات جديدة مثل الانتباه المتناثر الهرمي كحل واعد لهذا التحدي.

تستند الأنظمة الجديدة على مبادئ معمارية أساسية تسهم في تحسين الأداء، رغم أن التفاصيل الدقيقة لكيفية نجاحها لا تزال غير مفهومة بشكل كامل.

هذا العمل يقدم تحليلًا منهجيًا للموديلات الداخلية، ويسلط الضوء على ثلاث مبادئ تصميم حاسمة تُعتبر مفتاح النجاح:
1. **محول القطعة غير الخطي**: يستخدم مُرمزًا خاصًا (CLS token) لإنتاج تمثيلات فعالة تتيح الاسترجاع الدقيق للمعلومات.
2. **مسار متجاوز**: يعمل على دمج المعلومات العالمية المسترجعة بشكل ثابت دون أن تُطغى عليها البيانات المحلية.
3. **اختيار التفاعل الناقص**: يُفرض خلال مرحلة التدريب لخلق فجوة توزيع بين التدريب والاختبار.

عبر دمج هذه المبادئ، تمكنا من تحقيق إنجاز جديد في التعميم الطولي بدون تدريب، حيث تمكنت النماذج المدربة على 4K من توسيع مدى قدرتها إلى 32 مليون توكن في مجموعة بيانات RULER وBABILong.

هذه الاكتشافات توفر مجموعة واضحة من المبادئ التصميمية المبنية على دلائل تجريبية، مما يمهد الطريق لتطوير نماذج لغوية مستقبلية ذات قدرة عالية في التعامل مع السياقات الطويلة.

جاري تحميل التفاعلات...

ثورة جديدة في نماذج اللغة: تحسين التعميم الطولي باستخدام الانتباه المتناثر الهرمي

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

دليلك الشامل لتدريب نماذج اللغة الضخمة باستخدام TRL: من التعديل الخاضع للإشراف إلى تحسين تفضيلات المستخدم

إعادة ولادة النماذج اللغوية: إطار موثوق لتحويل أنظمة الذكاء الاصطناعي عند انتهاء عمرها الافتراضي

اكتشاف أساليب جديدة لفهم التكوينات اللغوية في نماذج اللغات الضخمة: منظور توليد القواعد