إعادة التفكير في مشاركة المعلمات لتحسين نماذج اللغات الضخمة باستخدام LoRA متعددة!

تعتبر نماذج اللغات الضخمة (LLMs) إحدى أبرز الابتكارات في عالم الذكاء الاصطناعي، حيث تُستخدم لتكييف هذه النماذج عبر تقنيات فعالة مثل تحسين المعلمات ذات الرتبة المنخفضة (Low-Rank Adaptation - LoRA). يتمثل النهج الأساسي لهذه التقنية في صيغة معينة حيث تعتمد النتائج $y$ على المعاملات المدربة $W_0$ والإدخال $x$ في الطبقات المعدلة.

ومع زيادة الاعتماد على الأساليب متعددة المعالجات، ظهرت تساؤلات حول الكفاءة الفعلية لهذه التقنيات. تشير الدراسات السابقة إلى أن المصفوفات الداخلية $A$ تظهر تشابهًا كبيرًا أثناء التدريب، مما يدعم فكرة إمكانية مشاركة هذه المعلمات. ومع ذلك، أظهرت الأبحاث الحديثة أن هذا التشابه يعود بشكل رئيسي إلى التهيئة المتطابقة وليس إلى مشاركة المعرفة، حيث تلعب المصفوفة $B$ دورًا أكبر في ترميز المعرفة ونقلها.

استنادًا إلى هذه الرؤى، تم تقديم تصميم جديد يسمى extbf{ALoRA}، الذي يتميز بطبيعة غير متزامنة مع استخدام مصفوفات متعددة من $A$ ومصفوفة واحدة مشتركة من $B$، مما يسمح بتكييف متعدد المهام بشكل أكثر فعالية. كما تم تطوير extbf{Fed-ALoRA}، الذي يشارك المصوفة $B$ عبر العملاء في التدريب الفيدرالي (Federated Fine-Tuning) سواء في البيئات المتجانسة أو غير المتجانسة، باستخدام استراتيجية جديدة لفك مصفوفة المعطيات لتناسب الرتب غير المتجانسة بين العملاء.

أثبتت التجارب التي تمت على بيانات reasoning المتعلقة بالعقل، وفهم الرياضيات، ومجموعات بيانات NLP متعددة المهام أن أساليبنا تحقق أداءً متوازنًا عبر المهام مع دقة متوسطة مشابهة أو متفوقة مقارنة مع الأساليب الأخرى المُستخدمة سابقًا.

لإلقاء نظرة على التقنيات المستخدمة وتحميل الكود، يمكنك زيارة الرابط https://github.com/OptMN-Lab/ALoRA.

إعادة التفكير في مشاركة المعلمات لتحسين نماذج اللغات الضخمة باستخدام LoRA متعددة!

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

مستقبل البرمجة السحابية: Mistral AI تطلق وكلاء عن بُعد بنموذج 128B المبتكر!

اصنع مجرى عمل ذكي متعدد الوكلاء لنمذجة الشبكات البيولوجية وتفاعلات البروتينات!

ابتكار ثوري من NVIDIA: تسريع أداء نماذج الذكاء الاصطناعي بمعيار غير مسبوق!