اكتشف كيف تعرف نماذج اللغة ما تعرفه: NanoKnow تكشف الأسرار!

تطرح دراسة حديثة بعنوان NanoKnow تساؤلاً مهمًا يتعلق بفهم نماذج اللغة الضخمة (LLMs) لكيفية معرفتها بالمعلومات. غالبًا ما تُعتبر بيانات التدريب المسبق بمثابة "صندوق أسود"، حيث يصعب الوصول إليها أو معرفة محتواها. ولكن مع الإطلاق الأخير لعائلة ``nanochat``، وهي نماذج لغة صغيرة تمتاز ببيانات تدريب مفتوحة تمامًا، أصبح بإمكان الباحثين استكشاف المعلومات بشكل أوضح.

إن الهدف من إصدار NanoKnow هو فهم كيف يتم تشفير المعرفة داخل نماذج اللغة. وهذا تم عبر تقديم مجموعة بيانات معيارية تستند إلى أسئلة مأخوذة من مجموعة ``Natural Questions`` و``SQuAD``، حيث تم تقسيمها بناءً على ما إذا كانت الإجابات موجودة ضمن بيانات تدريب ``nanochat``. من خلال هذه التقسيمات، يمكن للباحثين الآن تحديد مصادر المعرفة التي تعتمد عليها نماذج اللغة عند إنتاجها للنتائج.

وفي سبيل إثبات فائدة NanoKnow، تم إجراء تجارب باستخدام ثمانية نقاط توقيت (checkpoints) من ``nanochat``. أظهرت النتائج أن:

1. الدقة في الاختبار المغلق تتأثر بشكل كبير بتكرار الإجابات في بيانات التدريب.
2. توفير أدلة خارجية يمكن أن يساعد في التخفيف من تأثير هذا الاعتماد على التكرار.
3. حتى مع وجود أدلة خارجية، تظل النماذج أكثر دقة عندما كانت الإجابات موجودة سابقًا خلال التدريب.
4. المعلومات غير المتعلقة قد تكون ضارة، حيث تنخفض الدقة بناءً على الموضع وعدد السياقات غير ذات الصلة.

يمكنكم استكشاف جميع موارد NanoKnow على [https://github.com/castorini/NanoKnow] في محاولة لتعزيز الفهم والتفاعل مع نماذج الذكاء الاصطناعي.

اكتشف كيف تعرف نماذج اللغة ما تعرفه: NanoKnow تكشف الأسرار!

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

ابتكار ثوري من NVIDIA: تسريع أداء نماذج الذكاء الاصطناعي بمعيار غير مسبوق!

فك الشيفرة العصبية: كيف نستخرج الميزات اللغوية من إشارات الدماغ باستخدام الذكاء الاصطناعي

ميتا تطلق Autodata: إطار وثيق يحوّل نماذج الذكاء الاصطناعي إلى علماء بيانات مستقلين!