في عالم يتطور بسرعة، تبرز نماذج اللغة الجديدة كخطوة ثورية في فهم النصوص التاريخية. نقدم لكم TypewriterLM، نموذج لغة تاريخي ذو 7.24 مليار معلمة تم تدريبه Exclusively على نصوص إنجليزية تعود لما قبل عام 1913، مشكلاً نقطة انطلاق نحو التفاعل الأفضل مع النصوص القديمة.
تطوير نماذج التاريخ يتطلب التعامل مع تحديات عدة، أبرزها جودة البيانات وتوافر معلومات موثوقة، مما يمنع تسرب المعلومات الزمنية. تم تصميم TypewriterLM لمعالجة هذه القضايا عبر بناء TypewriterCorpus، وهو مجموعة بيانات تاريخية ضخمة تحتوي على 54 مليار وحدة، تم جمعها من مصادر أرشيفية مختارة بعناية وتمت معالجة بياناتها بصورة دقيقة.
لا يقتصر الابتكار هنا، بل يشمل أيضًا تقديم مفهوم "التدريب الموجه اللغوي lexically grounded instructing tuning". هذا الإطار يضمن أن تبقى الاستجابات مرتبطة بشكل مباشر بالمصادر التاريخية. ومن خلال هذا النموذج، تم إنشاء مجموعتي بيانات لتدريب التعليمات التاريخية: History-LIMA و History-SelfInstruct.
لتقييم كفاءة النموذج وتماسكه الزمني، تم تقديم مجموعة تقييم جديدة تحمل اسم History-Event، والتي تستخدم لتقييم القدرة، ربط الزمن، وتسرب البيانات.
يُعد إطلاق TypewriterLM وجميع الموارد المرتبطة به خطوة هامة لدعم الأبحاث المستقبلية في نماذج اللغة التاريخية. يُظهر هذا الابتكار كيف يمكن لتكنولوجيا الذكاء الاصطناعي أن تعيد الحياة للنصوص القديمة وتمكننا من فهم التاريخ بطريقة أفضل.
ما رأيكم في هذا التطور في نماذج اللغة التاريخية؟ شاركونا في التعليقات!
استكشاف TypewriterLM: ثورة نماذج اللغة التاريخية التي تعيد كتابة الماضي!
اكتشفوا TypewriterLM، نموذج اللغة التاريخية الذي تم تدريبه على نصوص إنجليزية تعود لما قبل عام 1913. هذه التقنية الحديثة تعالج تحديات جودة البيانات وتضمن تماسك الزمن في الاستجابات!
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
