تشهد اللغة السنهالية، التي تُعتبر من اللغات الغنية بالمورفولوجيا، تباينًا في الكتابة بين استخدام نظام يونيكود (Unicode) للنصوص الرسمية وثقافة النصوص الرومانية المستخدمة بشكل متزايد على وسائل التواصل الاجتماعي. هذا البحث الجديد يستعرض أداء 24 نموذجًا مفتوح المصدر للذكاء الاصطناعي على النصوص السنهالية باستخدام أنظمة كتابة متنوعة.
الدراسة، التي اعتمدت على تقييم الارتباك (perplexity) عبر مصادر نصية مختلفة، تُظهر أن هناك حساسية واضحة لل scripts، حيث انخفض الأداء في النماذج بنسبة تزيد عن 300 مرة عند الانتقال من النصوص المكتوبة بنظام يونيكود إلى النصوص الرومانية. والمثير للدهشة، لم تُظهر أحجام النماذج الكبيرة أي علاقة بالقدرة على التعامل مع النصوص، حيث أثبتت النماذج الأصغر كفاءتها في أداء المهمة بشكل أفضل من نماذج أخرى تعادل 28 مرة في الحجم.
يشير التحليل أيضًا إلى أن أداء النماذج على النصوص المكتوبة بنظام يونيكود يُحدد بشكل قوي قدرة النموذج على التعامل مع نصوص مختلطة، ولكنه لا يتمتع بنفس القوة في تقييم القدرات على النصوص الرومانية. هذه النتائج تسلط الضوء على العقبات التي تصلح للاستخدام في ظروف العالم الحقيقي، وتؤسس معايير جديدة لقدرات نماذج اللغات في اللغة السنهالية، ما يُوفر أيضًا إرشادات عملية لاختيار النماذج في البيئات المنخفضة الموارد متعددة النصوص.
إن كنت تعتقد أن النماذج الكبيرة دائمًا ما تكون الأكثر كفاءة، فقد تكون هذه الدراسة مثيرة لتغيير وجهة نظرك. هل لديك آراء حول كيفية تأثير تنوع الكتابة على أداء الذكاء الاصطناعي؟ شاركونا في التعليقات!
اختبار حساسية النصوص: كيف تتفاعل نماذج الذكاء الاصطناعي مع لغات العالم المتعددة؟
تقدم دراسة جديدة تحليلًا فريدًا لتأثير استخدام أطر كتابة مختلفة على أداء نماذج اللغات في اللغة السنهالية. النتائج تشير إلى تحديات كبيرة في التعامل مع النصوص الرومانية والمختلطة، مما يفتح الأبواب لتحسينات جديدة في الذكاء الاصطناعي.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
