<iframe title="Sora:站在OpenAI的肩膀上" src="https://www.youtube.com/embed/uHm6GXSkK6A?feature=oembed" height="113" width="200" allowfullscreen="" allow="fullscreen" style="aspect-ratio: 1.76991 / 1; width: 100%; height: 100%;"></iframe> #Sora #OpenAI #视频生成 #大模型 #AI趋势 #Transformer #DiffusionModel ## Key Takeaway - Sora的发布标志着视频生成技术达到“能用”级别,其真实度远超同期产品。 - Sora成功的核心在于OpenAI采用了Transformer架构,并将其应用于视频生成,将视频切分为“Spacetime Patch”作为Token。 - Sora结合了Diffusion Model和Transformer的优势,被称为“Diffusion Transformer”。 - OpenAI在Sora的训练和使用阶段,充分利用了DALL.E 3和GPT等自家模型,形成了强大的综合优势。 - Sora的成功表明AI竞争已进入综合赛道,局部优势难以抵挡全面领先,数据将成为下一阶段竞争的关键。 ## Full Content 视频生成的GPT-3.5时刻来了。 这技术进步实在太快了。一年前的文生视频是这个样子的: 这是当时非常出圈的“威尔史密斯吃意面”。根本没法看,对吧? 一年之后,OpenAI发布Sora,达到了这样的效果: 整个构图、人物的肤色、光影等等,都相当逼真了。 用同样的提示词让Pika生成,一对比就会发现,这差距太大了。留给同行的时间不多了。 视频生成,在能用和不能用之间,有一道非常明显的槛:真实度。这个真实指的是,是否符合我们的常识,符合真实世界的运行规律,比如物理定律。 你看Sora的效果,这是第一次,视频生成达到了能用的级别。比如这个无人机视角的片段,把它用在vlog里,完全没毛病。 不过,比起赞叹Sora有多牛逼,更值得我们关注的,是OpenAI究竟是怎么做到这一切的。 如果你是国内从业者的话,了解完之后,可能会有点绝望:我们真的有可能追上OpenAI吗? 要理解Sora,咱们得先回到2016年6月16日。这一天,OpenAI发布了一篇关于生成式模型的文章。文章开头的几段话很关键: OpenAI的核心诉求之一,是通过算法和技术,让计算机能够理解我们的世界。 要实现这个目标,生成式模型是最有希望途径之一。 为什么非要“生成”?费曼有一句非常名言: 我没法创造的,我就不理解。 也就是说,如果我能生成极其逼真的视频,那我肯定是足够理解真实世界的。 你看OpenAI最新文章的标题: Video generation models as world simulator。 把视频生成模型作为世界模拟器,这个思路早在很多很多年前就已经确定了。 然后我们再细看Sora背后的技术就会发现,一切都是这么多年一点一滴积累起来的,是祖上三代的传承。 OpenAI在开发Sora时,跟同行最大的不同是,他们用了Transformer架构。 这个架构能够在大规模数据集上训练,并且微调阶段用的成本也更低,所以特别适合大规模训练。 能够规模化,这是OpenAI做一切事情的前提。他们要的不是学术创新,要的是实实在在地模拟世界、改变世界。 Transformer架构之前在自然语言处理领域取得了很大成功。OpenAI认为,一个关键因素是,使用了Token的概念。 文本被输入之后,被分割成Token。每个Token都被转化成向量,然后发送给模型。这样一来,Transformer模型就能利用自注意力机制去处理,去捕捉Token之间的复杂关系,从而方便进行统一的大规模训练。 那么,当文本换成了视频,Token就变成了Patch。 OpenAI先对视频进行压缩,否则计算量太大吃不消;然后再对压缩后的视频进行切割,变成Spacetime Patch。 这些Patch,在Transformer模型中充当Token的角色,这样就能像之前那样进行训练了。 Sora仍然属于Diffusion Model,扩散模型。给它输入低精度、充满噪音的Patch,它被训练成能够预测原始的、高清的Patch。 OpenAI管Sora叫Diffusion Transformer,因为他们把两者的优势结合起来了,这是Sora成功的技术基础。 不过,这还没完。Sora就是个“富二代”,投在它身上的资源,比同行多多了。 在训练阶段,需要给视频素材配上文本说明,这样模型才知道那是什么东西。为了提升训练质量,OpenAI用自家的DALL.E 3去给视频素材做高质量的文本描述。 在使用阶段,模型生成的效果,取决于用户提示词的精准程度。但是,你没法要求用户表达得明明白白、方便模型去理解。于是,OpenAI用自家的GPT去对用户的提示词做更详细的扩写,然后再交给Sora处理。 所以,当你把Sora能成功的要素都放在一起看,就会明白,这根本不是人家突然放个大招的问题: 文生文、文生视频不是两条技术路线吗?结果OpenAI成功合二为一了。 这说明,在这场竞争中,不存在局部战场,只有综合赛道。你不要想着能在某个领域形成局部优势,把巨头挡在外边。是不是很绝望? 训练阶段,有DALL.E 3帮忙开小灶;使用阶段,有GPT打下手。 有哪家公司的模型能有这样的待遇?是不是很绝望? 大模型研发,属于登月级别的难度,比拼的不是人才密度,是天才密度。人家这帮天才怀揣着“让计算机理解世界”的宏大目标,提前好多年开始行动。一旦领先,就是全面领先。 这就是我们今天要面对的OpenAI。 距离Sora正式上市,估计还要大半年时间。对其他公司来说,能否在这八九个月内复刻这一套架构。以及,很重要的一点是,能否找到大规模、高质量的视频训练数据。 过去一年,大家拼的是算力、算法。我感觉,拼数据的阶段马上就要来了。