في الوقت الراهن، يواجه تطبيق استدلال المحولات (Transformer Inference) على الأجهزة المدمجة تحديات كبيرة تتعلق بالذاكرة وقدرة المعالجة. وقد أظهرت الدراسات السابقة أن توزيع هذا الاستدلال عبر الأجهزة المدمجة يمكن أن يخفف من هذه القيود، لكن الفوائد العملية على الأجهزة الحقيقية ظلت غير واضحة.

كانت النتائج المبنية على المحاكاة غير كافية لفهم العوائق الناتجة عن أعباء التواصل الخاصة بالأجهزة، لذلك قدمت دراسة جديدة نموذجًا أوليًا لأجهزة NVIDIA Jetson Orin Nano التي ترتبط عبر WiFi. ووجدت الدراسة أن ضيق الاتصال ليس فقط مرتبطًا بعرض النطاق الترددي، بل يشمل أيضًا تداخل العمليات بين المعالج المركزي (CPU) ووحدة معالجة الرسوميات (GPU) أثناء التواصل. هذه العوائق تتطلب توجيه جميع بيانات التواصل بين الأجهزة عبر GLOO وتخزينها في ذاكرة المعالج المركزي، مما يجعل تبادل البيانات الكلي أبطأ من الاستدلال على جهاز واحد، خاصة بالنسبة للنماذج المتوسطة مثل ViT.

لتجاوز هذه القيود، تم تقييم أداة Prism التي تجمع بين ضغط Segment Means وتحليل خفيف الوزن لاختيار الأسلوب المناسب لتنفيذ العمليات بين التنفيذ المحلي والموزع في الوقت الحقيقي. أظهرت التجارب أن هذه الاستراتيجية تقلل من زمن الاستجابة بنسبة تتراوح بين 65% و77%، وتخفض من استهلاك الطاقة بين 34% و52% مقارنةً بالعمليات الموزعة الثابتة.

تسلط هذه النتائج الضوء على أهمية التكيف المدفوع بالتحليل كعنصر أساسي لتحقيق استدلال فعال للمحولات على الأجهزة المدمجة، مما يفتح آفاقًا جديدة لتطبيقات الذكاء الاصطناعي في بيئات الحساب المحدودة.