计算机行业跟踪报告：OpenAI推出首个文生视频大模型Sora，引领AI文生视频行业跨越式发展_行业研究

您的位置：首页 >> 行业研究 >> 文章正文

计算机行业跟踪报告：OpenAI推出首个文生视频大模型Sora，引领AI文生视频行业跨越式发展

加入日期：2024-2-19 11:01:14

　　顶尖财经网(www.58188.com)2024-2-19 11:01:14讯：

（以下内容从万联证券《计算机行业跟踪报告：OpenAI推出首个文生视频大模型Sora，引领AI文生视频行业跨越式发展》研报附件原文摘录）
行业核心观点：
文生视频大模型Sora重磅发布，可生成长达1分钟的视频。2月16日，OpenAI推出其首个文生视频大模型Sora。根据官网介绍，Sora可以生成长达1分钟时长的视频，同时还能保证视频质量，并遵循用户的提示（prompt）。
投资要点：
Sora是一个扩散transformer，具有强大的语言理解能力，通过在潜在空间训练patches生成视频。对标tokens，OpenAI将视觉数据转换为patches，有效用于Sora大模型训练。Sora是一种扩散模型，通过给出输入的静态噪声以及相关的文本提示（prompt）等调节信息，训练生成原始的“干净”patches。在推理时，OpenAI还可以通过在适当大小的网格中排列随机初始化的patches来控制生成视频的大小。与GPT模型类似，Sora使用transformer架构，释放出卓越的扩展性能。立足DALL·E3和GPT模型，Sora具有强大的语言理解能力，能够生成更加准确遵循用户提示的高质量视频。此外，在固定种子和输入的情况下，可以看到训练计算的增加能显著提升样本视频的质量。
多维度跨越式突破，视频质量飞跃性提升。Sora的采样更具有灵活性，同时改进了框架和构图。Sora可以采样宽屏1920x1080p的视频、垂直1080x1920的视频以及介于两者之间的所有视频。这让Sora可直接以不同的原始长宽比创建内容。OpenAI还通过经验发现，在视频的原始长宽比上进行训练可以改善构图和框架。Sora还支持图生视频、视频生视频，能执行广泛的图像和视频编辑任务，创建完美的循环视频、动画静态图像、向前或向后扩展视频等。在连接视频上，Sora能将两个输入视频无缝衔接在一起。虽然目前Sora仍然有一些缺陷和局限性，但已经开始理解物理意义，并出现许多有趣的涌现能力，如三维一致性。
重塑AI文生视频行业格局，或冲击AI文生图赛道。Sora在生成视频长度上大幅领先，多角度镜头能力也显著领先行业竞品。同样的prompt，Sora生成的视频长度、质量都显著领先。Sora可以生成可变大小的图像，最高可达2048×2048分辨率，图片画质有了大幅提升。我们认为随着文生视频画质能力的提升，图片作为单帧的视频，文生视频领域的产品或将冲击文生图行业。
投资建议：1)AI文生视频行业发展带动AI行业应用落地的机遇；2）AI行业发展对算力、光模块等基础设施的持续需求；3）AIGC在媒体、游戏等行业的加速落地带来的投资机遇。
风险提示：AI产业发展不及预期；AI带来的版权、隐私及技术风险；国内AI应用落地不及预期；中美科技摩擦风险。

编辑：　来源：