野生研究社出品
为行业研究者打造专属资料库

Vidu引领传媒新纪元:AI视频生成模型突破与前景展望

本次为大家推荐的报告是《传媒行业专题研究:Vidu~国内AI视频生成模型新突破》,更多重要内容、核心观点,请参考报告原文,文末有完整版获取方式。

报告核心内容解读

本报告深入探讨了全球AI大模型的发展趋势,特别是国内AI视频生成模型的最新突破——Vidu。Vidu由北京生数科技有限公司联合清华大学发布,展示了其在一键生成高清视频内容方面的卓越能力,以及在未来推动传媒行业发展的巨大潜力。

一、全球AI大模型迭代升级,多模态发展前景广阔

  • 全球AI大模型,包括Sora、Llama3等海外模型,以及Kimi、昆仑天工AI、阶跃星辰等国内模型,均持续迭代升级。
  • 传媒行业将受益于AI大模型的发展,尤其是AI视频大模型对多样化训练数据的依赖,凸显了高质量视频素材库的价值。

二、Vidu:国内AI视频生成模型的新突破

  • Vidu采用团队原创的U-ViT架构,能够一键生成长达16秒、1080P高清视频,具备多镜头生成、时空一致性高等特点。
  • 核心团队由清华大学人工智能团队组成,首席科学家为清华人工智能研究院副院长朱军。
  • Vidu的多模态大模型融合文本、图像、3D、视频等多模态信息,展现了全面的多模态能力。

三、Vidu快速进化,与国际顶尖模型差距缩小

  • Vidu在短短三个月内,视频生成时长从4秒提升至16秒,展现了快速的迭代速度。
  • Vidu在保证了时空一致性的前提下,实现了较大的运动幅度,优于目前多数文/图生视频模型。
  • Vidu的分辨率已达到行业领先水平,但仍需进一步优化以适应不同尺寸需求。

四、Vidu模型使用U-ViT架构,实现多模态、高效、低成本

  • U-ViT架构基于ViT设计,使用Diffusion生成图像,标志着CNN在扩散模型中被Transformer取代的趋势。
  • U-ViT架构通过简单的图像分割、token表示、Transformer处理和最终输出等步骤,高效生成高质量视频。
  • U-ViT架构的成本优势显著,主要得益于ViT架构的训练成本较低,为Vidu的广泛应用提供了有力支持。

报告节选

因篇幅限制,仅展示部分,更多重要内容、核心观点,请参考报告原文或底部相关报告。

版权声明:报告来自互联网,仅供投资者学习和参考,在发布信息时,我们将尽最大努力标明出处,但因互联网的去中心、海量信息的特殊结构,可能有时会存在未指明作者的失误,我们诚挚的希望您能指出我们的工作失误,如果您(单位或个人)认为本站的内容有侵权嫌疑,烦请通知我们(kefu@baogaobox.com),我们将在第一时间处理核实,同时如果您的报告不愿在本站展示,请联系我们删除或更改,谢谢。本站仅提供用户检索、查询报告服务,以便快速找到报告的来源、作者等信息,不提供下载服务。如需下载,请前往社群。
文章名称:《Vidu引领传媒新纪元:AI视频生成模型突破与前景展望》
文章链接:https://www.baogaobox.com/insights/240511000001128.html
分享到