 

当前位置：远瞻慧库  热点洞察  正文

Vidu引领传媒新纪元：AI视频生成模型突破与前景展望

发布时间：2024-05-11 13:32 分类：热点洞察来源：互联网整理预计阅读时长 3 分钟举报

本次为大家推荐的报告是《传媒行业专题研究：Vidu~国内AI视频生成模型新突破》，更多重要内容、核心观点，请参考报告原文，文末有完整版获取方式。

报告核心内容解读

本报告深入探讨了全球AI 大模型的发展趋势，特别是国内AI视频生成模型的最新突破——Vidu。Vidu由北京生数科技有限公司联合清华大学发布，展示了其在一键生成高清视频内容方面的卓越能力，以及在未来推动传媒行业发展的巨大潜力。

一、全球AI大模型迭代升级，多模态发展前景广阔

全球AI大模型，包括Sora、Llama3等海外模型，以及Kimi、昆仑天工AI、阶跃星辰等国内模型，均持续迭代升级。
传媒行业将受益于AI大模型的发展，尤其是AI视频大模型对多样化训练数据的依赖，凸显了高质量视频素材库的价值。

二、Vidu：国内AI视频生成模型的新突破

Vidu采用团队原创的U-ViT架构，能够一键生成长达16秒、1080P高清视频，具备多镜头生成、时空一致性高等特点。
核心团队由清华大学人工智能团队组成，首席科学家为清华人工智能研究院副院长朱军。
Vidu的多模态大模型融合文本、图像、3D、视频等多模态信息，展现了全面的多模态能力。

三、Vidu快速进化，与国际顶尖模型差距缩小

Vidu在短短三个月内，视频生成时长从4秒提升至16秒，展现了快速的迭代速度。
Vidu在保证了时空一致性的前提下，实现了较大的运动幅度，优于目前多数文/图生视频模型。
Vidu的分辨率已达到行业领先水平，但仍需进一步优化以适应不同尺寸需求。

四、Vidu模型使用U-ViT架构，实现多模态、高效、低成本

U-ViT架构基于ViT设计，使用Diffusion生成图像，标志着CNN在扩散模型中被Transformer取代的趋势。
U-ViT架构通过简单的图像分割、token表示、Transformer处理和最终输出等步骤，高效生成高质量视频。
U-ViT架构的成本优势显著，主要得益于ViT架构的训练成本较低，为Vidu的广泛应用提供了有力支持。

报告节选

因篇幅限制，仅展示部分，更多重要内容、核心观点，请参考报告原文或底部相关报告。

版权声明：报告来自互联网，仅供投资者学习和参考，在发布信息时，我们将尽最大努力标明出处，但因互联网的去中心、海量信息的特殊结构，可能有时会存在未指明作者的失误，我们诚挚的希望您能指出我们的工作失误，如果您（单位或个人）认为本站的内容有侵权嫌疑，烦请通知我们（kefu@baogaobox.com），我们将在第一时间处理核实，同时如果您的报告不愿在本站展示，请联系我们删除或更改，谢谢。本站仅提供用户检索、查询报告服务，以便快速找到报告的来源、作者等信息，不提供下载服务。如需下载，请前往社群。
文章名称：《Vidu引领传媒新纪元：AI视频生成模型突破与前景展望》
文章链接：https://www.baogaobox.com/insights/240511000001128.html

分享到

AI视频视频生成模型

相关报告

回顶部