في عصر يتزايد فيه الاعتماد على نماذج الذكاء الاصطناعي الكبيرة، تظهر تحديات جديدة تتعلق بتطبيق هذه النماذج على الأجهزة ذات الموارد المحدودة. هنا تأتي DuoMem في الصورة، كحل مبتكر يعالج هذه القيود.

تستند DuoMem إلى إطار عمل جديد يُعرف بتقنية "التعليم المزدوج" (Dual-Space Distillation)، التي تهدف إلى نقل القدرة على حل المشكلات المعقدة من نموذج أقوى (Teacher Model) إلى نماذج أصغر حجماً (Student Models) بدون فقدان الكفاءة. يتم ذلك من خلال استخدام مساحتين تكميليتين: الأولى هي "مساحة السياق" (context-space)، التي تقوم على استبدال الذكريات التي تنتجها النماذج الصغيرة بذكريات إجرائية ذات جودة أعلى تم إنشاؤها بواسطة النموذج المعلم. الثانية هي "مساحة المعامل" (parameter-space)، والتي يتم من خلالها ضبط المحولات الخفيفة الوزن بناءً على المسارات الناجحة للنموذج المعلم.

لقد تمت تجربة DuoMem على "ALFWorld"، الذي يعتبر معيارًا للتحديات في اتخاذ القرارات. وقد أظهرت النتائج تحسنًا ملحوظًا في معدل نجاح المهام، حيث ارتفع معدل النموذج الذي يحتوي على 4 مليار معلمة من 4.3% إلى 77.9%، مما يقترب بشكل كبير من النموذج المعلم الذي يحتوي على 72 مليار معلمة (87.1%). كل ذلك مع إضافة أقل من 10 مليون معلمة قابلة للتدريب وحجم ذاكرة مسبقة المحسوبة لا يتجاوز بضع ميغابايت.

بفضل DuoMem، يمكن للنموذج المعزز أن يكمل المهام بسرعة تفوق ثلاث مرات مقارنة بالنموذج المعلم في أوقات الجدار، مما يجعله خيارًا واعدًا لنشر التطبيقات في الوقت الحقيقي، وهو ما يشكل تحديًا للنموذج المعلم. تشير التحليلات المكثفة عبر ثمانية نماذج تتراوح من 2 إلى 72 مليار معلمة إلى أن كلا من محوري التعليم يساهمان بشكل تكميلي في تعزيز الأداء.

في الختام، تقدم DuoMem خطوة كبيرة نحو تحقيق دمج فعال لنماذج الذكاء الاصطناعي على الأجهزة ذات الموارد المحدودة. ما رأيكم في هذا الابتكار؟ شاركونا في التعليقات!