في عصر الذكاء الاصطناعي، تعتبر نماذج اللغات الضخمة (Large Language Models) واحدة من أعظم الابتكارات. ولكن، هل تساءلت يومًا عن كيفية تعلم هذه النماذج وما المحتوى الذي اجتازته؟ دراسة جديدة تسلط الضوء على هذه النقاط الحساسة من خلال تحليل القيم الفردية لمصفوفة الأوزان لنماذج مثل GPT-OSS-120B وGemma-2-2B وQwen2.5-1.5B.
يعتمد البحث على تقنية التحليل المعروفة باسم تحليل القيم الفردية (SVD) والتي تحتاج فقط إلى خمس أسطر من شيفرة البرمجة باستخدام PyTorch، وتظهر لنا أنها تكشف عن الفضاءات الدلالية القابلة للتفسير مباشرة من أوزان النموذج. من خلال التعرف على المتجهات الفردية، يمكننا تحديد الرموز اللغوية الأكثر استخدامًا عندما يتوافق الحالة الخفية مع الاتجاه الفردي المعني.
الخلاصة هي أن البنية التركيبية لبيانات التدريب تختلف بشكل كبير بين النماذج. حيث يُظهر GPT هرمًا تدريجيًا من الفضاءات المختلفة بشكل وظيفي، بينما تهيمن على Gemma الكتابة الإنجليزية قبل القرن التاسع عشر، مما يسهل السيطرة على الناتج. أما Qwen، فيتميز بتغطية متعددة اللغات، لكنه يحتوي على بعض المحتويات التي تم تحديدها بأنها غير مناسبة أخلاقياً للنشر المباشر.
بسيط: تُظهر النتائج أن بعض الفضاءات المثيرة للقلق تمثل محتوى تم اكتسابه في مرحلة ما قبل التدريب، ولا تتم إزالته خلال عملية التنسيق بعد التدريب.
للمضي قدمًا، تم تقديم معايير جديدة مثل "مؤشر تجميع المفردات" (Vocabulary Cluster Score - VCS) و"مؤشر الإسقاط المثقل" (Weighted Projection Score - WPS) لتحديد المشكلات في المحتوى. هذه المعايير تعزز من دعوات إجراء تحليلات SVD لضمان الأمان قبل إصدار النماذج الجديدة، وتفتح أبوابًا نحو تحسين تصميم نماذج اللغات الضخمة القابلة للتحكم.
اكتشف كلمة السر لنموذجك اللغوي! خمس أسطر من الشيفرة تكشف ما تعلّمه نموذجك (وما لا ينبغي له أن يتعلمه)
درس حديث يكشف أسرار نماذج اللغات الضخمة (LLMs) من خلال تحليل القيم الفردية، مما يساعد في فهم تركيبة بيانات التدريب وأخلاقيات المحتوى. النتائج تدعو للتركيز على تحسين توكنات النماذج وتوجيه تصميمها بشكل أفضل.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
