في عالم الذكاء الاصطناعي، تبرز النماذج اللغوية الضخمة (Large Language Models) كأحد الإنجازات البارزة، إلا أن كيفية انتقال المعلومات عبر طبقاتها لا تزال محاطة بالعديد من الغموض. من المعروف أن العمق يمكن اعتباره كزمن متقطع، بينما يُعتبر مجرى البقايا (Residual Stream) نظامًا ديناميكيًا، حيث فوجئ الباحثون بقدرة الطبقات على تحديث حالات غير خطية، مما يؤمن وصفًا خطيًا محليًا.
على الرغم من الجهود السابقة لفهم هذه الديناميكيات، إلا أن التحليلات السابقة كانت تركز على ملخصات كمية أو تقديرات خطية، مما جعل الهندسة الطيفية الكاملة للنماذج اللغوية الضخمة غير مفهومة تمامًا. ولكن، في دراسة حديثة، تم تنفيذ تحليل كامل لتحلل القيمة الذاتية (Jacobian eigendecomposition) عبر ثلاثة نماذج تتوسع بشكل ملحوظ، وكشفت النتائج عن تركيب نمط تدريجي طيفي يتطور عبر العمق — من الطبقات المبكرة التي تهيمن عليها التدويرات الغير طبيعية إلى الطبقات المتأخرة القريبة من التماثل.
في هذه التجارب، اتضح أن هذا الاتجاه الطيفي والانهيار البعدي هما صفات مكتسبة وليست معمارية، وظهر أنهما يتلاشيان عندما تُزال هيكلية اللاتناسقية. كما تشير النتائج إلى أن الموقع الطوبولوجي لمجتمعات الرسم البياني يمكن أن يتوقع ما إذا كان التحليل الجاكوبيني يعزز أو يقمع هذه المجتمعات، حيث يتحدد إشارات الربط بنوع المشغل المحلي، وهي علاقة غائبة في اللحظات الأولى.
تتجلى النتائج بشكل مثير لتربط الهندسة الطيفية المكتسبة في هذه النماذج اللغوية الضخمة بين انتشار الاضطراب والانضغاط مع البنية الوظيفية للشبكة العصبية. هذا الاكتشاف يشكل خطوة هامة نحو فهم أعمق لكيفية عمل تقنيات الذكاء الاصطناعي التي تعتمد على البيانات، وربما يفتح آفاقًا جديدة لتحسين أداء النماذج في المستقبل.
ما رأيكم في هذا التطور؟ شاركونا في التعليقات.
اكتشاف أسرار النماذج اللغوية الضخمة: كيف تؤثر هندسة الطيف على الشبكة العصبية؟
تسلط دراسة جديدة الضوء على كيفية تأثير هندسة الطيف (Spectral Geometry) على تدفق المعلومات في النماذج اللغوية الضخمة (Large Language Models). النتائج تكشف عن علاقة معقدة بين الطبقات والتغيرات الديناميكية في الشبكات العصبية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
