في دراسة رائدة تسعى إلى فهم مدى إمكانية مشاركة البيانات السمعية (Audio) والبصرية (Images) والمرئية (Video) لنظام رمزي موحد يعتمد على الأمواج، تم تقديم نموذج أولي يعتمد على تحويل هارو (Haar DWT/IDWT) كواجهة أمامية. يُظهر النموذج إمكانية استخدام رموز مشتركة، مما يتيح للموديلات التفاعل بسلاسة ودون الاعتماد على الشبكات المنفصلة التي قد تضيف تعقيدًا إضافيًا.
تم اختبار هذا النظام الجديد على بيانات مختلفة مثل Speech Commands وEuroSAT RGB وDAVIS 2017، ويظهر أن النموذج الكثيف المشترك يحقق نتائج مثيرة للاهتمام: 39.92 ديسبل للصوت، 29.37 ديسبل للصورة، و23.93 ديسبل للفيديو. تشير النتائج إلى أن الفوائد المرئية لا تقتصر فقط على السعة الكامنة (Latent Capacity) بل أن هناك أيضًا عوامل أخرى تلعب دورًا هامًا.
علاوة على ذلك، يدل اختيار الطاقة الثابتة على تحسين ملحوظ مقارنة بالاختيار العشوائي، حيث يتم تحسين متوسط PSNR بمقدار 16.73 ديسبل للصوت و16.90 ديسبل للصور و15.86 ديسبل للفيديو. من الواضح أن استخدام الرموز المعتمدة على الأمواج لديه القدرة على تحسين التجربة السمعية والبصرية بشكل غير مسبوق.
بينما لا تزال الدراسة بعيدة عن إنشاء مفردات متقطعة (Discrete Vocabulary) موحدة، فإن النتائج تدعم فكرة وجود نظام رمزي موحد يعتمد على الأمواج وواجهة رمزية متفرقة. هذه النتائج قد تفتح آفاقًا جديدة في كيفية معالجة البيانات المتعددة الأبعاد في المستقبل.
الأمواج كرموز: نتائج أولية حول نظام رمزي موحد للبيانات الطبيعية!
تقدم هذه الدراسة نتائج مثيرة حول إمكانية استخدام نظام رمزي مشترك قائم على الأمواج للبيانات السمعية والبصرية. النتائج تشير إلى إمكانيات جديدة لتحسين جودة الصور والصوت والفيديو.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
