计算机行业：Sora技术深度解析_行业研究

您的位置：首页 >> 行业研究 >> 文章正文

计算机行业：Sora技术深度解析

加入日期：2024-2-26 14:22:13

　　顶尖财经网(www.58188.com)2024-2-26 14:22:13讯：

（以下内容从华福证券《计算机行业：Sora技术深度解析》研报附件原文摘录）
投资要点
Sora横空出世引领多模态产业革命。美国时间2月15日，文生视频大模型Sora横空出世，能够根据文本指令或静态图像生成1分钟的视频。其中，视频生成包含精细复杂的场景、生动的角色表情以及复杂的镜头运动，同时也接受现有视频扩展或填补缺失的帧。总体而言，不管是在视频的保真度、长度、稳定性、一致性、分辨率、文字理解等方面，Sora都做到了业内领先水平，引领多模态产业革命。此外，当Sora训练的数据量足够大时，它也展现出了一种类似于涌现的能力，从而使得视频生成模型具备了类似于物理世界通用模拟器的潜力。
拆解视频生成过程，技术博采众长或奠定了Sora文生视频领军地位。从技术报告中，Sora视频生成过程大致由“视频编码+加噪降噪+视频解码”三个步骤组成，视频压缩网络、时空patches、transformer架构、视频数据集等技术与资源在其中发挥了重要作用。
视频压缩网络：过往VAE应用于视频领域通常需插入时间层，Sora从头训练了能直接压缩视频的自编码器，可同时实现时间和空间的压缩，既节省算力资源，又最大程度上保留视频原始信息，或为Sora生成长视频的关键因素，并为后续处理奠定基础。
时空patches：1）同时考虑视频中时间和空间关系，能够捕捉到视频中细微的动作和变化，在保证视频内容连贯性和长度的同时，创造出丰富多样的视觉效果；2）突破视频分辨率、长宽比等限制的同时显著提升模型性能，节约训练与推理算力成本。
Transformer架构：1）相比于U-Net架构，transformer突显Scaling Law下的“暴力美学”，即参数规模越大、训练时长越长、训练数据集越大，生成视频的效果更好；2）此外，在transformer大规模训练下，逐步显现出规模效应，迸发了模型的涌现能力。
视频数据集：Sora或采用了更丰富的视频数据集，在原生视频的基础上，将DALL？E3的re-captioning技术应用于视频领域，同时利用GPT保障文字-视频数据集质量，使得模型具有强大的语言理解能力。
投资建议：我们认为，在视频压缩网络与时空patches提高计算效率与利用原生视频信息的基础上，transformer或取代U-Net成为扩散模型主流架构。可拓展性更强的transformer需要更为有力的算力支持才能保障视频生成质量，同时相比于大语言模型，视觉数据的训练与推理算力需求更大，因而算力有望成为确定性最高的受益赛道。此外，Sora发布有望形成多模态产业“鲇鱼效应”，激励其他多模态厂商的良性发展。建议关注：1）AI算力：云赛智联、思特奇、恒为科技、海光信息、寒武纪、景嘉微、中科曙光、浪潮信息、拓维信息、四川长虹、工业富联、神州数码等；2）AI+多模态：万兴科技、虹软科技、当虹科技、中科创达、大华股份、海康威视、漫步者、萤石网络、汉仪股份、美图公司、云从科技。
风险提示：技术发展不及预期、产品落地不及预期、AI伦理风险等。

编辑：　来源：