科技安徽热线 2024-12-11 505浏览

视频行业“工具革命”？Sora正式发布，物理规律遵循难题待解

近300天后，Sora终于正式发布。

北京时间12月10日凌晨，OpenAI为期12天的发布会迎来第三场直播，OpenAI CEO山姆·奥特曼（Sam Altman）在直播中带来了AI视频生成模型Sora，这也是该模型正式向用户开放。

新版本在画质（最高支持1080p）、时长（最长20秒）以及画面长宽比方面都为用户提供了选择，还可实现文生视频、图生视频和视频生视频。同时，Sora还提供了剪辑工具，用户可以轻松剪辑视频。可以说，正式推出后的Sora变得更快、更清晰以及更能剪辑。

对于Sora的发布，多位业内人士表示，在可以预见的范围内，Sora会给广告、影视、游戏、直播等行业带来深远影响。上海人工智能研究院算法工程师黄冠认为，虽然AI视频生成模型在物理理解能力、画面统一性及算力成本等方面上还存在进步的空间，但随着资本的持续推动，国内外相关模型也会在未来一年内加速走向成熟。

最长可生成20秒视频，ChatGPT会员可免费使用

直播中，Sora工作人员表示，此次推出的Sora Turbo是原始Sora模型的全新高端加速版本，工作人员着重对Remix（重混）、Re-cut（重新剪辑）、Storyboard（故事板）、Loop（循环）、Style presets（风格预设）等功能进行了演示。

在Remix（重混）功能上，用户可对生成结果的内容进行替换、删除等操作，演示中，一段“猛犸象穿过沙漠”的画面生成后，工作人员通过修改文字，画面中的“猛犸象”变成了“机器人”。

在Storyboard（故事板）功能中，用户可以使用Re-cut（重新剪辑）功能，在视频时间线上截取、修剪或者扩展视频，如为片段的留白处创建一个结尾。

除此之外，在故事板功能中，Sora还可以使用图像创建视频。演示中，当工作人员上传了一张灯塔的图片后，Sora根据图片自动生成了一段对于画面的描述，并且加入了用户可能希望图像如何运动的理解。

据工作人员介绍，Sora可以生成多种长宽比的视频，时长从5秒到20秒不等，分辨率可从480p到1080p。同时，Sora还会为用户提供多个片段的风格预设。

从价格方面来看，ChatGPT plus或ChatGPT Pro的订阅用户可免费使用Sora，前者为20美元/月，最多可生成50次，分辨率最高为720p，时间最长为5秒。而ChatGPT Pro为200美元/月，此类订阅用户可享受更高的权益，如在慢速队列模式下可以无限制生成，快速模式下可生成500个视频，分辨率最高可达1080p，生成的视频时间最长为20秒。

用户扎堆体验，Sora物理规律遵循方面仍存缺陷

Sora官网显示，由于官网涌入大量流量，目前暂停了新帐户的创建，截至发稿时，这一禁令仍未解除。不过，在全球社交媒体上，已有不少用户分享了Sora的使用体验。

在视频平台Youtube上，拥有近2000万粉丝的科技测评博主Marques Brownlee分享了自己抢先体验Sora的测评结果。Marques指出，在生成时间方面，生成一个5秒钟的360p视频只需要不到20秒，且生成过程在服务器端进行，不受用户电脑速度和网络连接速度的影响。

Marques表示，在抽象内容创作方面，Sora能够根据用户的详细描述，创建各种纹理、颜色和渐变效果，使抽象形状以多种方式移动，可用于制作屏幕保护程序或背景素材等。除此之外，在特定风格创作以及创意元素生成等方面，Sora都有很好的表现，能为用户提供更多创作的可能性。

不过，在遵循物理规律方面，Sora还存在一定的欠缺。在Marques的观察中，Sora生成的视频存在物体运动不符合常理以及存在物体永恒性的问题，如物体相互穿过、凭空出现和消失的现象频繁发生，影响了视频的真实感和可理解性。另一方面，人物动作缺乏自然，当有腿的物体行走时，经常出现腿部动作混乱，前后腿切换错误的情况，且人物运动速度不稳定，导致整体运动效果偏离了正常状态。

对于这一问题，上海人工智能研究院算法工程师黄冠告诉贝壳财经记者，这是目前大部分AI视频生成模型的通病，“Sora是扩散模型和 Transformer 的结合体，本质是根据输入，通过 Transformer 生成潜在空间表征序列，对应的表征形式为空间时间图块（类似 GPT 中的token），再经扩散模型对表征序列进行解释，逐渐消除噪声生成逻辑自洽的图像序列。这种架构可能会导致模型对物理现象难以理解，导致生成的画面存在不符合物理规律的问题。”

黄冠表示，若要提升模型对物理的解释能力，需要优化模型架构，“此类模型是概率性模型，依赖训练数据和标定，未来可通过提升数据标定、扩大优质数据集训练或模型架构更新的方式取得进步。”

对于Sora的发布，Sora的工作人员在直播间表示，作为一个工具，Sora 可以让用户同时在多个地方，同时尝试多个想法以及尝试以前完全不可能的事情，“我们认为这是一种超级特别的东西，是背后创作者的延伸。所以我们迫不及待地想看看用户可以创造什么。”

多位业内人士表示，在可以预见的范围内，Sora会给广告、影视、游戏、直播等行业带来深远影响。黄冠指出，AI视频生成模型的发展速度非常快，随着资本的持续推动，国内外相关模型也会在未来一年内加速成熟。

Sora带来视频行业“工具革命”？

今年2月Sora预览版发布后，首次由AI生成了长达1分钟的多镜头长视频，引发了全球对于AI视频生成模型的讨论。

在第三场直播中，山姆·奥特曼也分享了其认为视频对于OpenAI 十分重要的原因，“我们喜欢为创作者打造工具，这种创造文化对我们来说至关重要，这也是我们希望人类利用AI的方式之一。其次，我们不希望这个世界只有文本，我们希望AI能够理解并生成视频，我认为这会深刻改变我们使用计算机的方式。第三，这对于OpenAI的通用人工智能路线图至关重要，视频将是一个重要的环境，我们或者AI将在这里学习如何实现我们在世界上所需的目标。”

在Sora预览版发布后，有不少声音认为，Sora掀起了视频行业的“工具革命”。此次正式版发布后，有行业人士认为，Sora的成功之处在于找到了AI如何复制人类视频制作的方法和思路，如用户可以通过剪辑工具对画面的细节进行调优，同时会对多领域产生深远影响。

中央财经大学中国互联网经济研究院副院长刘航向告诉贝壳财经记者，对于Sora掀起视频行业“工具革命”这一提法，其认为并不过分，自动生成视频的功能对动画和视频行业从业者有很强的赋能作用，可以提升效率。但刘航强调，在使用的过程中，创作者需明确表达自身的需求和主旨，并输入内容，才能使AI生成符合需求的结果。

黄冠则表示，Sora从工具的属性上来看确实是一场革命，基于“完美”版Sora的前提下，传统视频的制作方法可能完全被颠覆，“在当前情形下，Sora更多可能是作为辅助工具来提高工作效率，我也期待未来理想版的Sora以及理想情况下的AIGC能成为现实，那时不仅仅是视频行业的‘工具革命’，可能说是媒体行业新一轮的‘工业革命’也不为过。”

今年以来，国内AI视频生成工具如海螺AI、可灵、即梦AI、Vidu、清影等大模型相继出现，并且均能实现较好的视频生成效果。

黄冠认为，虽然在模型创新、数据和算力等方面，国内AI视频生成模型与国外还存在差距，但背靠快手、腾讯、阿里、字节的大模型们，追赶速度极快，甚至在某些方面有所赶超，如中文语境下让视频人物说中国话、创作中国风作品效果更佳。黄冠还强调，在商业化方面，国内还率先在微短剧行业实现了AI 视频生成模型的落地。

11月底，快手科技创始人兼首席执行官程一笑曾透露，目前可灵AI的商业化单月流水超千万人民币，公司有信心在明年实现可灵收入规模的快速增长。

Fortune business insights发布的报告显示，2024年，全球AI视频生成市场规模预计达6.148亿美元（约44.6亿人民币），预计到2032年，这一市场规模将超过25.629亿美元（约185.93亿人民币），年复合增长率19.5%，市场前景广阔。

不过，AI视频生成模型还要不断突破技术和算力瓶颈。多位AI算法研究人员告诉贝壳财经记者，除了物理理解能力差，当前AI视频生成模型还存在画面统一性问题以及算力资源消耗大、生成成本高等问题，如算力限制和成本较高的直接后果就是视频的生成时长受到影响，这也是为何Sora最高只能生成20秒视频的部分原因。

而随着技术和算力发展，AI生成视频的内容质量将会得到较大提升，生成的视频也会更符合物理场景、画面更连贯真实。对于未来的商业化前景，受访专家表示，此类模型可为影视行业提供从故事创作到视频生成、剪辑的一条龙服务，实现一站式视频生成，由于生产效率极大的提高，未来会受到更多商业场景的欢迎。

新京报贝壳财经记者韦博雅

编辑陈莉

校对穆祥桐

关键词 : 直播