لا تزال عملية نشر نماذج الرؤية-لغة (Vision-Language Models) على الأجهزة الطرفية تمثل تحديًا كبيرًا بسبب المتطلبات الكبيرة من حيث الحساب والذاكرة، والتي تعجز عن تلبيتها المنصات المدمجة ذات الموارد المحدودة. ومن ناحية أخرى، يعتبر نقل كل عمليات الاستدلال إلى السحابة أمرًا غير عملي في البيئات المحدودة بالنطاق الترددي، حيث إن نقل البيانات البصرية الخام يقدم تأخيرًا زمنيًا كبيرًا.

على الرغم من أن المعمارية التعاونية بين الحافة والسحابة قد سعت لإدارة أحمال العمل الخاصة بنماذج الرؤية-لغة، إلا أنها غالبًا ما تعتمد على نقل تمثيلات ذات حجم ثابت، مما يفتقر إلى التكيف مع ظروف الشبكة المتغيرة ويفشل في استغلال التكرار الدلالي الكامل.

في هذه الورقة، نقدم إطار عمل اتصالات دلالية تدريجية لتحسين استدلال نماذج الرؤية-لغة بين الحافة والسحابة، من خلال استخدام مجمع تلقائي للبيانات (Meta AutoEncoder) الذي يقوم بضغط الرموز البصرية إلى تمثيلات قابلة للتكيف وقابلة للتنقيح تدريجيًا. هذه التصميم يسمح بنشر سهل مع نماذج الرؤية-لغة الموجودة دون الحاجة إلى ضبط إضافي.

تتيح هذه الطريقة نقل المعلومات بمستويات مختلفة، مما يوفر توازنًا تحكمًا في تكلفة الاتصال ودقة الدلالات. لقد قمنا بتنفيذ نظام كامل بين الحافة والسحابة يتكون من منصة NXP i.MX95 مدمجة وخادم GPU، يتواصل عبر الشبكات ذات النطاق الترددي المحدود. تُظهر النتائج التجريبية أنه عند سرعات رفع 1 ميغابت في الثانية، يقلل النظام التدريجي المقترح بشكل كبير من زمن انتقال الشبكة مقارنةً بالحلول الكاملة على الحافة والسحابة، مع الحفاظ على اتساق دلالي مرتفع حتى من خلال ضغط كبير.

سيتم إصدار كود التنفيذ عند نشر الورقة على https://github.com/open-ep/ProSemComVLM.