تتطور أنظمة نماذج اللغة الذكية بسرعة ملحوظة، حيث يقدم الابتكار الجديد المعروف باسم LayerRoute طريقة فعالة لتحسين الأداء. تعتمد نماذج اللغة عادةً على نوعين مختلفين من الخطوات: الخطوات المحددة المرتبطة بالأدوات (Structured Tool Calls) التي تتميز بالقصيرة والدقيقة، وخطوات التخطيط المفتوحة (Open-ended Planning) التي تتطلب معالجة أكثر تعقيدًا. ومع ذلك، فإن أنظمة الاستدلال الحالية تعالج كل خطوة بنفس القدر من الموارد الحاسوبية، مما يؤدي إلى الاستهلاك غير الفعال للقدرة الحاسوبية.

LayerRoute؟">ما هو LayerRoute؟


LayerRoute هو عبارة عن ملحق خفيف الوزن يقوم بتعلم كيفية تخطي بعض طبقات نموذج التحويل (Transformer Blocks) على أساس كل إدخال. إذ يزيد LayerRoute من كفاءة نموذج Qwen2.5-0.5B-Instruct من خلال إضافة:
1. **مسار لكل طبقة** (~897 معلمة)، الذي ينتج بوابة ثنائية عبر أسلوب التقدير المباشر.
2. **محولات LoRA** (مرتبة 8، ~1.08 مليون معلمة) على الإسقاطات الخاصة بالإهتمام.

تتمثل الفائدة الرئيسية في أن الأوزان الأساسية تبقى ثابتة، مما يؤدي إلى استراتيجية تدريب واحدة على بيانات ذكية متعددة (مثل Hermes وGlaive وGSM8K وTuring) مع استخدام مصطلح تنظيم البوابة لإجبار النظام على اكتشاف أي الطبقات يمكن تخطيها حسب نوع الإدخال.

بعد 3000 خطوة من التدريب، أظهر LayerRoute فارق تخطي بنسبة 12.91%، حيث تم تخطي 15.25% من عمليات الحوسبة (FLOPs) عند الاستخدام المتعلق بالأدوات، في حين تم تخطي 2.34% فقط عند خطوات التخطيط. كل ذلك باستخدام 1.10 مليون معلمة قابلة للتدريب، أي 0.22% فقط من الأوزان الأساسية البالغة 494 مليون.

تعمل تحسينات LoRA على تعزيز جودة الأداء، حيث ساهمت في تقليل مستوى التعقيد في الخطوات المرتبطة بالأدوات بمقدار -1.29، و-1.30 في خطوات التخطيط.

LayerRoute يمثل قفزة نوعية نحو تحقيق أداء أعلى في نماذج لغة الذكاء الاصطناعي، مما يفتح آفاقًا جديدة لتطبيقات معززة وتفاعلية.