في عالم الذكاء الاصطناعي، تعتبر نماذج اللغة الكبيرة (Large Language Models) أداة قوية، حيث تعزز الأداء في العديد من المهام. لكن تعد عمليات التعديل والتخصيص لهذه النماذج مكلفة من حيث التوزيع والتخزين. وقد تمّ استكشاف طرق دمج النماذج مؤخرًا كوسيلة لتجميع عدة نماذج متخصصة في نموذج متعدد المهام واحد دون الحاجة لتدريب إضافي.

لكن، تظهر مشكلة كبيرة مع تقنيات التعديل باستخدام التكيف منخفض الرتبة (Low-Rank Adaptation - LoRA)، حيث يؤدي الدمج التقليدي إلى انخفاض حاد في الأداء. وقد أظهرت دراسة حديثة أن هذه المشكلة تنجم عن تفاعل غير ملحوظ بين معلمات النموذج وتوزيعات البيانات.

لحل هذه المعضلة، يقترح الباحثون استخدام فضاءات متعامدة لدمج النماذج (Orthogonal Subspaces for Robust Model Merging - OSRM)، حيث يتم تقييد فضاء LoRA قبل بدء عملية التعديل، مما يضمن أن التحديثات الخاصة بمهمة معينة لا تؤثر سلبًا على المخرجات الخاصة بالمهام الأخرى.

تتكامل هذه الطريقة بسلاسة مع معظم خوارزميات الدمج الحالية، مما يقلل من التداخل غير المرغوب بين المهام. وقد أظهرت التجارب المكثفة التي أجريت على ثمانية مجموعات بيانات، باستخدام ثلاثة نماذج لغوية شائعة ونموذجين كبيرين، أن هذه الطريقة لا تعزز أداء الدمج فحسب، بل تحافظ أيضًا على دقة النماذج الفردية. كما أن هذه الطريقة تتسم بمزيد من المرونة تجاه معلمات الدمج.

تسلط هذه النتائج الضوء على أهمية تفاعل البيانات مع المعلمات في عملية دمج النماذج، وتوفر حلاً عمليًا وفعالًا لدمج نماذج LoRA، مما يعزز أداء التطبيقات الذكية بشكل ملحوظ. ما الذي تعتقده حول هذه الأساليب الجديدة في دمج نماذج الذكاء الاصطناعي؟ شاركونا آراءكم في التعليقات!