في عصر تطور الذكاء الاصطناعي، أصبحت تقنيات تكييف نماذج اللغات الكبيرة (LLMs) أساسية لتحقيق أداء متفوق في مهام متعددة مثل تنفيذ التعليمات، ومحاذاة التفضيلات، وأسلوب التفكير المنطقي المتعدد الخطوات. ولتحقيق هذا، طُورت أساليب جديدة للتكيف بعد التدريب، منها التعلم المعزز بالمكافآت القابلة للتحقق (RLVR) الذي أثبت فعاليته في تحسين قدرات التفكير.

ومع ذلك، يواجه التدريب الكامل (FFT) مع RLVR تحديات في استهلاك الذاكرة والتكاليف العالية. لذلك، ظهرت طرق التكييف المعتمد على المعلمات الفعالة (PEFT) مثل التكيف المنخفض الرتبة (LoRA)، التي تسهم في تقليل التكاليف ولكن ما تزال تعاني من فجوة أداء ملحوظة مقارنة بالتدريب الكامل.

لذلك، تم تقديم هايبرد-لوارا كمجموعة هجين فعالة لتكييف ما بعد التدريب، حيث يتم تطبيق التدريب الكامل بشكل انتقائي على مجموعة صغيرة من الوحدات ذات الحساسية للتكيف المنخفض الرتبة، بينما يتم تعديل بقية المكونات باستخدام LoRA.

يمثل هايبرد-لوارا تقدمًا كبيرًا من خلال إدخال معيار جديد يقوم بتصنيف الوحدات المرشحة وفقًا لحساسيتها لتكيف الرتبة المنخفضة ضمن ميزانية محددة من المعلمات.

تظهر التجارب أن هايبرد-لوارا يحقق أداءً قريبًا من التدريب الكامل حتى مع تخصيص 10% فقط من ميزانية الوحدات لتدريب كامل، مما يجعله يتفوق باستمرار على أربعة أساليب رائدة في التكييف المعتمد على المعلمات، حيث سجل تحسينات تصل إلى 5.65% ومتوسط 4.36% مقارنة بأفضل الأساليب التقليدية.