في عالم الذكاء الاصطناعي، يسعى الباحثون دائمًا نحو تحسين الأداء ورفع كفاءة النماذج. واحدة من أحدث الابتكارات في هذا المجال هي "دمج النماذج" (Model Fusion) الذي يهدف إلى دمج شبكات عصبية تم تدريبها بشكل مستقل في نموذج واحد دون الحاجة لإعادة تدريب، مما يمثل تحديًا كبيرًا بسبب اختلاف التمثيلات الذي ينشأ عن عدم تطابق البيانات، والتهيئة العشوائية، والتوزيعات غير المستقلة والمتنوعة للبيانات.

تواجه الأساليب التقليدية صعوبات خاصة في ظروف "عدم وجود بيانات مسبقة" (zero-shot) تحت توزيعات البيانات غير المستقلة (non-IID)، وغالبًا ما يقتصر استخدامها على هياكل معينة أو دمج ثنائي. ولكن، تم مؤخرًا تقديم عائلة جديدة من خوارزميات دمج النماذج تأخذ طابعًا أكثر تطورًا وابتكارًا.

تعتمد هذه الخوارزميات على مفهوم مركز النيوترون (neuron-centric) وتقوم بتأطير الدمج كمشكلة مطابقة تمثيل. حيث تتم تجميع النيوترونات الوسيطة عبر النماذج الأم ليتم تنسيقها في تمثيلات مستهدفة، والتي تتدرب الشبكات الفرعية المقابلة للنموذج المدموج على approximating.

وما يميز هذه الطريقة هو استخدام درجات نسبة النيوترون (neuron attribution scores) لتوجيه الانحياز نحو الميزات البارزة، مما يحسن من جودة التوافق. وقد تم التحقق من نجاحها تجريبيًا باستخدام نماذج مشهورة مثل VGGs و ResNets و ViTs.

أظهرت التجارب عبر معايير قياسية تحسنات ثابتة مقارنة بالأساليب التقليدية، مع تحقيق أكبر مكاسب في السيناريوهات الصعبة مثل عدم وجود بيانات مسبقة والبيانات غير المستقلة.

إذا كنت مهتمًا بهذا التطور المثير، يمكنك الاطلاع على الكود المتاح عبر github.

ما رأيكم في هذا التطور؟ شاركونا في التعليقات.