تعد تقنية BioVid أحدث الابتكارات في مجال توليد الفيديوهات باستخدام الذكاء الاصطناعي، حيث تم تطويرها لتتجاوز القيود التقليدية التي تحد من جودة وأصالة الفيديوهات المولدة. معظم الأطر الحالية تعتمد على معلمات ثابتة تُحدد مسبقًا مثل عدد الإطارات أو النصوص التوجيهية، مما يخلق مقاطع فيديو ذات حدود زمنية غير مرتبطة بالهيكل الإحصائي للبيانات السلوكية الحقيقية.
لكن BioVid يتبنى نهجًا مختلفًا تمامًا، حيث يركز على التعلم من البيانات نفسها لفهم الهيكل الزمني للسلوكيات البيولوجية، بما في ذلك توزيعات الطول الطبيعية. في المرحلة الأولى، يتم استخدام تقنية GAN (Generative Adversarial Network) المتقدمة والمعروفة باسم FSQ-R3GAN، حيث يقوم بتحويل كل إطار فيديو إلى تمثيل مضغوط يسهل معالجته. هذه التقنية تضمن إعادة إنتاج عالية الدقة، دون فقدان الجودة.
وفي المرحلة الثانية، يتم استخدام نموذج Transformer لتوليد بيانات السلوك بصورة تلقائية، حيث يتعلم كيفية إصدار رمز "نهاية التسلسل" (End-of-Sequence, EOS) عند الوصول إلى نهاية الحدث السلوكي. يتشكل توزيع انتهاء المقاطع بشكل طبيعي من البيانات التدريبية، دون الحاجة إلى قيود يحددها البشر، مما يجعل المنتج النهائي أكثر واقعية ودقة.
أظهرت التجارب التي تم إجراؤها على مجموعة بيانات سلوك الشرب لدى البشر (NTU RGB+D، A001، n=94) أن توزيع الطول للمقاطع التي تم توليدها بواسطة BioVid كان قريبًا جدًا من البيانات الحقيقية، حيث حقق BioVid مسافة Wasserstein-1 مقدارها 1.24 مقارنة بمعدل 6.05 للإطار الثابت و15.48 لـ VideoGPT. هذه النتائج تعكس ليس فقط دقة الطول ولكن أيضًا القدرة التنافسية في جودة الصورة الناتجة.
بيوفيد: ثورة في توليد الفيديوهات باستخدام الذكاء الاصطناعي وفهم سلوكيات الحياة البيولوجية
تقدم تقنية BioVid نقلة نوعية في توليد الفيديوهات من خلال فهم سلوكيات الحياة البيولوجية بشكل دقيق. تعتمد هذه التقنية الجديدة على البيانات لتوليد مقاطع فيديو تعكس تنوع السلوكيات الطبيعية للإنسان.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
