تطرح دراسة حديثة بعنوان NanoKnow تساؤلاً مهمًا يتعلق بفهم نماذج اللغة الضخمة (LLMs) لكيفية معرفتها بالمعلومات. غالبًا ما تُعتبر بيانات التدريب المسبق بمثابة "صندوق أسود"، حيث يصعب الوصول إليها أو معرفة محتواها. ولكن مع الإطلاق الأخير لعائلة ``nanochat``، وهي نماذج لغة صغيرة تمتاز ببيانات تدريب مفتوحة تمامًا، أصبح بإمكان الباحثين استكشاف المعلومات بشكل أوضح.

إن الهدف من إصدار NanoKnow هو فهم كيف يتم تشفير المعرفة داخل نماذج اللغة. وهذا تم عبر تقديم مجموعة بيانات معيارية تستند إلى أسئلة مأخوذة من مجموعة ``Natural Questions`` و``SQuAD``، حيث تم تقسيمها بناءً على ما إذا كانت الإجابات موجودة ضمن بيانات تدريب ``nanochat``. من خلال هذه التقسيمات، يمكن للباحثين الآن تحديد مصادر المعرفة التي تعتمد عليها نماذج اللغة عند إنتاجها للنتائج.

وفي سبيل إثبات فائدة NanoKnow، تم إجراء تجارب باستخدام ثمانية نقاط توقيت (checkpoints) من ``nanochat``. أظهرت النتائج أن:

1. الدقة في الاختبار المغلق تتأثر بشكل كبير بتكرار الإجابات في بيانات التدريب.
2. توفير أدلة خارجية يمكن أن يساعد في التخفيف من تأثير هذا الاعتماد على التكرار.
3. حتى مع وجود أدلة خارجية، تظل النماذج أكثر دقة عندما كانت الإجابات موجودة سابقًا خلال التدريب.
4. المعلومات غير المتعلقة قد تكون ضارة، حيث تنخفض الدقة بناءً على الموضع وعدد السياقات غير ذات الصلة.

يمكنكم استكشاف جميع موارد NanoKnow على [https://github.com/castorini/NanoKnow] في محاولة لتعزيز الفهم والتفاعل مع نماذج الذكاء الاصطناعي.