في عصر متسارع من الابتكار في مجال الذكاء الاصطناعي، تظهر الحاجة إلى تطوير نماذج فعالة توازن بين دقة الأداء وانخفاض تكاليف الاتصال. في هذا السياق، تم اقتراح إطار عمل تعاوني جديد يعمل على تحسين نماذج الرؤية واللغة (Vision-Language Models) حول مفهوم استغلال البيانات المرئية الملتقطة عبر أجهزة الحافة (Edge Devices) بشكل أكثر فعالية.
يتطلب استخدام نماذج الرؤية واللغة عادةً نقل بيانات مرئية عالية الدقة من الأجهزة إلى الخادم (Server) لتتم المعالجة. لكن المشكلة تكمن في أن تحميل صور بدقة كاملة يتطلب استهلاكاً كبيراً للموارد. وفي المقابل، فإن تقليل حجم الصور أو ضغطها بشكل مفرط قد يتسبب في فقدان تفاصيل دقيقة تؤثر سلبًا على دقة النتائج.
للتغلب على هذه التحديات، تم تطوير إطار عمل من مرحلتين. في المرحلة الأولى، يقوم الخادم بإجراء توقعات باستخدام الصورة المصغرة (Thumbnail) ويحوّل المخرجات إلى قياسات إخبارية. إذا تجاوزت هذه القياسات حداً معيناً، يقوم الخادم بتحديد منطقة اهتمام (Region of Interest - RoI) ويطلب من جهاز الحافة إرسال صورة محلية بدقة تفاصيل عالية للمنطقة المحددة.
تعمل هذه الاستراتيجية على ضمان إرسال المحتوى المرئي الضروري فقط، مما يقلل من أعباء الاتصالات بشكل كبير مع الحفاظ على دقة النتائج. التجارب أظهرت أن هذا الإطار الجديد يقود إلى تحسّن ملحوظ في الأداء عبر معايير قياس الرؤية واللغة المختلفة، مما يبشر بمستقبل واعد لتحسين تقنيات الذكاء الاصطناعي.
إطلاق إطار عمل مبتكر لتحسين الدقة وتقليل التكلفة في نماذج الذكاء الاصطناعي المعتمدة على الرؤية واللغة!
تم تصميم إطار عمل تعاوني بين أجهزة الحافة والخوادم لتحسين أداء نماذج الرؤية واللغة وتقليل تكاليف الاتصال. هذا التطور يعد بتوفير دقة عالية دون التسبب في مشكلات الناتجة عن الحمل الزائد للبيانات.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
