Sora团队首次专访：Sora就是太强了，所以不让普通人用

2024-03-13 发布在生活

　　前两天外媒对Sora核心团队做了次专访，看了下原视频，约等于什么都没说，场面神似发改委马科长讲话。

　　用网友的话来说，就像镜头外有一个律师拿着枪对着这帮人。

　　Sora已经发布快一个月了，刚发布时Sora惊为天人，带给人们无限遐想，甚至有不少人表示AGI就要来了。

　　然而，目前为止只有少数人用上了Sora，再好的东西用不上，久而久之人们也就失去了兴趣。

　　就在人们把Sora翻得底朝天，该聊的都聊完了，好像实在没活了，OpenAI派了几个人出来接受一下采访。

信息好像还不如Sora的技术文档多

16分钟的专访里，Sora的核心团队成员说了很多内容，但都是一些已知的内容，没有什么新的，。

　　来看看外国人是怎么打太极的。

　　这次访谈的三位Sora核心成员分别是Bill Peebles、Tim Brooks和Aditya Ramesh。

　　首先是大家最关心的问题，我们什么时候可以用到Sora?

别急

“。”

　　Sora成员表示，Sora目前尚未向公众开放，也没有具体的时间表。OpenAI正在收集用户反馈的阶段，希望进一步聊天人们如何使用Sora，有哪些安全工作要做。

　　既然用不了，那么探究一下，Sora是如何实现的。

　　Sora团队说：Sora是一个视频生成模型，其工作原理是分析大量视频数据并学会生成视频。具体工作方法融合了扩散模型(如DALL-E)和大型语言模型(如GPT系列)的技术。架构上Sora类似于介于两者之间，训练方式类似于DALL-E，但在结构上更像GPT。

　　结构上更像GPT这一点在Sora刚出现的时候就有不少人分析过，这也算Sora的一大技术特点。

　　接下来，是同样让人好奇的，Sora的训练数据到底来自于哪里?

　　在官方发布的Sora生成视频中，无论是咖啡杯中的海盗船，还是东京街头行走的女性，都在表示Sora似乎理解了许多世界的物理规律。

　　之前不少民间说法讨论，Sora极有可能在数据集中添加了用UE5生成的文本、视频当作合成数据。

　　面对这样的问题，Sora成员Tim Brooks没有明确回应，打了一个太极，表示不方便说得太细，但是他透露，大体上使用的是公开数据和OpenAI被授权使用的数据，并分享了一个“技术创新”。

　　以往，不论是图像还是视频生成模型，通常会以非常固定的尺寸进行训练，比如只有一个分辨率的视频。

　　在Sora的训练中，他们将各种各样的图片和视频，不管是高宽比、长短、高清还是低清，都分割成了一小块一小块。研究人员可以根据输入视频的大小，训练模型认识不同数量的小块，这也让Sora能更灵活地学习各种数据，并生成出不同分辨率和尺寸的内容。

　　这一技术在Sora技术文档里也有提过，就是所谓的patch。

　　大语言模型建模时把文本拆成了以token为最小单位，而视频大模型中的token就是patch。

为什么OpenAI能就能通过别人的技术造出好的AI产品出来

这一技术并不是OpenAI创造的，当OpenAI宣布使用了该技术时还引起了讨论，。

　　主持又问到：你觉得Sora擅长做什么?哪些方面还有所欠缺?比如我看到有个视频里一只手竟然长了六个手指。

　　Sora团队先扬后抑的表示到，Sora擅长写实类视频，并且可以生成1分钟时长的视频，很强。但仍然存在一些问题，比如手部细节(所有AI的噩梦)摄像机轨迹、物理现象变化等。

　　除此之外，Sora团队还介绍了一些其他酷炫的功能，比如通过除prompt之外，用视频合成的方式生成视频。这实现了在完全不同主题和场景构成的视频之间无缝过渡。

　　在OpenAI的Tiktok上就有无人机变成蝴蝶在斗兽场转化的珊瑚礁中飞翔的视频。

Sora