تعتبر نماذج اللغة الكبيرة (Large Language Models) محط أنظار الكثير من الباحثين والمطورين، ولكن التكيف الكامل لها مع المهام المختلفة أصبح تحديًا حقيقيًا بسبب متطلبات الحوسبة والذاكرة. في هذا الإطار، تأتي تقنية التكيف المعتمد على الإعدادات الفعالة (Parameter-Efficient Fine-Tuning - PEFT) مثل التكيف منخفض الرتبة (Low-Rank Adaptation - LoRA) لتخفيف هذه الأعباء من خلال اقتصار التحديثات على مجموعة صغيرة من المعلمات القابلة للتدريب.
ومع ذلك، قد تؤدي هذه الميزة إلى تنازلات في القدرة على التعميم، خاصةً عند الانتقال عبر مهام ومجالات متننوعة. لذا، أعادت دراسة جديدة تسليط الضوء على التوتر بين كفاءة المعلمات وقدرة التكيف، حيث أُسست استراتيجية LoRA-Over التي تهدف إلى إثراء بيئة التكييف أثناء التدريب، ومن ثم تقليص هذا الإثراء عند مرحلة الاستدلال.
تعمل تقنية LoRA-Over على إضافة معلمات مساعدة إلى المحولات منخفضة الرتبة خلال فترة التدريب، مما يوسع من نطاق الفرضيات المتاحة. وفي مرحلة لاحقة، يتم دمج هذه المعلمات مرة أخرى ضمن هيكل منخفض الرتبة قياسي بتكلفة إعادة بناء ضئيلة، مما يحافظ على نفس تكلفة الاستدلال التي تتسم بها تقنية LoRA التقليدية.
وعلاوة على ذلك، اقترحت الدراسة استراتيجيتين لتوجيه السعة الزائدة، إحداهما محددة مسبقًا والثانية تحدد أثناء التشغيل، لتوجيه القدرة الإضافية إلى المناطق الأكثر احتياجًا. تم تقييم LoRA-Over على عدة مجالات مثل فهم اللغة (GLUE، T5-Base) وحوارات (MT-Bench) والتفكير الحسابي (GSM8K) وتوليد الكود (HumanEval) باستخدام النماذج LLaMA 2-7B وLLaMA 3.1-8B. أظهرت جميع النتائج أن LoRA-Over تتفوق باستمرار على تقنية LoRA التقليدية، مما يبرز فعالية استراتيجية زيادة المعلمات المدروسة لتحسين القدرة على التعميم في PEFT.
تجاوز الحدود في الذكاء الاصطناعي: استراتيجية متقدمة للتكيف الفعاّل مع المهام المتنوعة!
استراتيجية LoRA-Over تقدم حلاً مبتكرًا للتغلب على تحديات تحسين النماذج اللغوية الكبيرة دون التأثير على كفاءة الاستدلال. هذه التقنية الجديدة تفتح آفاقًا جديدة في مجال الذكاء الاصطناعي.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
