في عالم الذكاء الاصطناعي الذي يتطور بسرعة، أظهرت نماذج اللغة الكبيرة (Large Language Models) قدرات هائلة في تفسير البيانات وتحليلها، ولكن هناك مجالٌ لتحسين أدائها. جاء البحث الجديد الذي تم إصداره على منصة arXiv بعنوان "تعديل نماذج اللغة بواسطة تقنية Mixture-of-Depths Ensemble" ليعيد تعريف كيفية تحسين نماذج اللغة عبر التركيز على الطبقات المتأخرة.
تقليديًا، يعتمد تعديل نماذج التحويل (Transformer) على فقدان الطبقة النهائية لتحسين الأداء، وهو ما قد يتسبب في تجاهل القوة التنبؤية الكامنة في الطبقات المتأخرة. من خلال أدوات التفسير مثل "عدسة اللوجيت" (logit lens)، تمت ملاحظة أن هذه الطبقات تحمل بالفعل تنبؤات ذات صلة بالمهام التي تُعالج.
يستكشف البحث إمكانية استخدام هذه الملاحظات كإشارة تدريبية يُمكن الاعتماد عليها. وقد وجد الباحثون أن تركيز جهود التعديل على هذه الطبقات يُسفر عن خسائر مماثلة لتلك المرتبطة بالطبقة النهائية، مما يؤدي أيضًا إلى سلوك محسّن أثناء الاختبار.
تم تقديم إطار العمل الجديد، Mixture-of-Depths Ensemble (MoDE)، الذي يتعامل مع الطبقات المتأخرة كمجموعة تعمل معًا لتغذية التنبؤات النهائية من خلال أوزان محددة تُتعلم أثناء التدريب. يمتاز MoDE بإمكانية تطبيقه فوق أي طريقة تعديل موجودة، مثل LoRA، وقد أظهر في التجارب تحسينًا معقولًا في الأداء الذهني مع زيادة طفيفة في عدد المعلمات.
تُظهر الدراسة أن اللوجيت في الطبقات المتأخرة يمكن أن يكون لها فائدة مباشرة في عملية التعديل، مما يمكن أن يُستبدل بوحدات قابلة للتدريب أكبر بكثير مع أداء مكافئ. وهذا يفتح آفاقًا جديدة لكيفية تعاملنا مع نماذج الذكاء الاصطناعي وتعزيز قدرتها على التعامل مع التحديات المعقدة.
هل تعتقد أن تقنية MoDE ستحدث تحولًا في مجال الذكاء الاصطناعي؟ شاركونا آراءكم في التعليقات!
ثورة في تعديل نماذج اللغة: تقنية Mixture-of-Depths Ensemble تعيد تحديد الفعالية!
اكتشف الباحثون آلية جديدة لتعديل نماذج اللغة، وهي Mixture-of-Depths Ensemble، التي تُعدل نماذج اللغة الكبيرة لتركيز الجهود على الطبقات المتأخرة. تقدم هذه التقنية أداءً متزايدًا مع موارد محدودة!
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
