في عالم يشهد تزايد استخدام الذكاء الاصطناعي، يعتبر التعامل مع اللهجات المختلفة تحدياً بارزاً. حيث أن أكثر من 80% من متحدثي الإنجليزية، الذين يبلغ عددهم 1.6 مليار، لا يستخدمون اللغة الإنجليزية الأمريكية القياسية (Standard American English - SAE). ومع ذلك، غالباً ما تفشل النماذج اللغوية الضخمة (Large Language Models - LLMs) في التعرف على اللهجات غير الناطقة بـ SAE، مما يؤدي إلى توليد إجابات نمطية. هنا يأتي دور DialectLLM، الإطار الأول من نوعه الذي يتيح إنشاء بيانات حوارية ذات جودة عالية تشمل ثلاث ركائز رئيسية: المفردات، التهجئة، والميزات النحوية.
يتميز DialectLLM بإنتاج مجموعة بيانات حوارية ملائمة للعديد من اللهجات، تمتد عبر تسع لهجات إنجليزية. بالتعاون مع خبراء لغويين ناطقين، تم تصميم قواعد تحويل من SAE إلى اللهجات، لضمان الأصالة والدقة. يتحدى هذا النهج الممارسات الحالية التي تطبق مجموعة واحدة من الميزات النحوية على كل من تصريحات المستخدم وردود النموذج، مع إثبات أن النماذج لا ينبغي أن تعيد إنتاج ما يصل إلى 90% من الميزات النحوية الخاصة باللهجة.
تُظهر التقييمات البشرية أن جودة البيانات الناتجة عن DialectLLM تتفوق على الأساليب السابقة بنسبة 98.8%، مما يشير إلى تفضيل المراجعين لهذه الطريقة في جاذبية اللهجة. بالإضافة إلى ذلك، تم بناء اختبارات معيارية تعتمد على DialectLLM تحتوي على أكثر من 50 ألف حوار، مع تقييم 17 نموذجاً لذكاء اصطناعي على مهام التعرف على اللهجات وتوليد الردود. ومع ذلك، حصلت النماذج المتقدمة على دقة تقل عن 70%، ولم تتمكن من تحقيق 50% للهجات الشهيرة مثل الإنجليزية الكندية، مما يدل على التحديات المستمرة.
يشير الإطار الجديد إلى إمكانيات واسعة لتحسين الذكاء الاصطناعي القائم على اللهجات، حيث يمثل خطوة فعالة نحو تطوير نماذج حوارية قادرة على فهم وتوليد استجابات ملائمة لمتحدثي اللهجات المختلفة.
ما رأيكم في هذا التطور؟ شاركونا في التعليقات!
ثورة في إنشاء الحوارات: DialectLLM يتجاوز اللغة الإنجليزية الأمريكية التقليدية!
يقدم DialectLLM إطاراً رائداً لتوليد بيانات حوارية متعددة اللهجات، مما يعزز تمثيل اللهجات الإنجليزية المختلفة. يهدف هذا الإطار إلى تحسين دقة نماذج الذكاء الاصطناعي في التعرف على اللهجات غير المعتمدة على الإنجليزية الأمريكية القياسية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
