OpenAI掀翻视频格局 AGI真的不远了？

孔海丽2024-02-17 08:54

视频领域的“GPT时刻”也来了。

北京时间2月16日凌晨，OpenAI推出了新的文生视频模型Sora，可以把简短的文本描述转换为长达60秒的高清视频，继文本、图片的革命之后，继续颠覆视频领域。

更重要的是，Sora初步实现了对真实世界的洞察与学习，已经能够理解角色在物理世界中的存在方式并预判运行轨迹。

尽管目前Sora仍难以准确模拟复杂场景的物理特性，并且可能无法理解因果关系，比如人物吹蜡烛之后，烛火并未摇曳或熄灭。但这种趋势已经摆上了台面，OpenAI开辟了一个全新的赛道，并让其他仍困在几秒视频时长的AI视频模型创业公司，遭受降维式辗轧。一位AI大模型从业者感慨：“要卷死一堆文生视频公司了，秒杀……”

一个能够理解、感知、创造内容的AI视频模型，将撕开无限可能。OpenAI扔下的这枚重磅炸弹，商业落地场景非常丰富，战栗的将不只是影视行业，整个内容创作行业或都将被动摇。

假以时日，真实世界与视频虚拟世界的区隔，或许也将被削弱，大洋彼岸已经在担心AI视频会影响总统大选了，正在采取行动应对AI生成的深度伪造。

对于Sora模型的意义，OpenAI官方如此表述：“能够理解和模拟现实世界的模型的基础，我们相信这一能力将是实现AGI的重要里程碑”。

上难度：理解真实世界

与现有文生视频技术相比，OpenAI的Sora几乎将AI视频的竞争，从冷兵器时代推进到了现代化战争阶段，时长、效果、互动性，都秒杀现有技术。

视频生成领域面对的一个重要挑战就是，在生成的较长视频中保持时空连贯性和一致性。市面上现有的AI视频产品，时长一旦超出几秒，将无法正确呈现物体之间的互动关系，逐渐“离谱”。

因为AI对视频的学习，依赖大量的训练数据，如果训练数据中没有涵盖某种特定的过渡效果或动作，AI就很难学会如何在生成视频时应用这些效果。也就是说，时长一旦变长，现有AI的能力就会“露馅”。

更根本的原因在于，现有AI无法理解物理世界的运行法则，也就无法预测物体和角色在时间线上的运动轨迹。

但OpenAI做到了。Sora直接将时长提升到了60秒，且效果高清，细节丰富。

OpenAI官网呈现的一则60秒视频显示，女主与周围的街道、人群、灯光、都非常清晰自然，完全没有AI视频常见的“掉帧”问题，甚至肢体动作、面部表情、水中倒影、墨镜折射画面都很连贯。

另一则视频中，穿过东京郊区的火车车窗倒影，不仅显示了车窗外掠过的建筑，近距离经过的另一节车厢甚至加深了车内灯光、人物的折射清晰度，非常符合常理，并且流畅自然。

Sora经常能够为短期和长期物体间的依赖关系建模。例如，在生成的视频中，人物、动物和物体即使在被遮挡或离开画面后，仍能被准确地保存和呈现。并且，Sora能够在单个样本中生成同一角色的多个镜头，并在整个视频中保持其外观的一致性。

一则太空人科幻视频中，同时呈现了近景、远景中的主角，被太空船内部场景切分开的人物镜头，分别处于凝视、行走、思考等不同的状态，人物一致、行为连贯。

据OpenAI官网介绍，Sora是一种扩散模型，相较其他模型，看起来具备了“理解”和“思考”能力。

与AI视频明星创业公司Runway所使用的Gen模型相比，Sora模型不仅了解用户在提示中要求的内容，还了解这些角色在物理世界中的存在方式，能够理解和模拟运动中的物理世界，能够生成具有多个角色、特定类型的运动，以及主题和背景的准确细节的复杂场景。

与GPT模型类似，Sora使用的是transformer架构，该架构对视频的时空序列包和图像潜在编码进行操作，能够主动填补视频中的“缺失帧”，从而看起来具备“预测性”，使得AI视频模型不再那么“被动”。

一位AI大模型从业人士对21世纪经济报道记者表示，OpenAI又一次改写了游戏规则，把文生视频推高到了“理解真实世界”的维度。

这也正是世界模型的特点——让机器能够像人类一样对真实世界有一个全面而准确的认知。世界模型不仅包括对事物的描述和分类，还包括对事物的关系、规律、原因和结果的理解和预测，从而进行推理和决策。

英伟达人工智能Jim Fan表示：“如果你还是把Sora当做DALLE那样的生成式玩具，还是好好想想吧，这是一个数据驱动的物理引擎。”有技术人员告诉21世纪经济报道记者，Jim Fan的言外之意在于，不能忽略Sora所折射的“世界模型”的更进一步——AI已经可以读懂物理规律。

随着训练的继续推进，AGI的实现或许不再是纸上谈兵。

打击力：颠覆现实世界

OpenAI推出Sora之后，互联网世界除了感叹，还有一片哀嚎。

在OpenAI的推文下面，不少评论打出“gg 皮克斯”、“gg好莱坞”（注：gg是竞技游戏礼貌用语，good game的缩写，用于表达“打得好，我认输”），马斯克更是在X上发表评论，称“gg 人类”。

有不少网友感慨自己“要失业了”，视频行业将被彻底颠覆。

有来自电影制作行业的从业人士告诉21世纪经济报道记者，如果Sora继续进化下去，取代一部分传统视频制作方式是必然的，就像AI绘画取代画师、设计师一样，这是趋势。

“短视频、概念视频、广告、微短剧、甚至是长视频里，都会大量使用AI生成视频。”该人士表示：“不过传统影视剧该怎么拍还得拍。”

观点普遍认为，AI视频模型将改变电影工业的生产方式，虽然不能完全取代现有人力，但将会成为新的生产工具，影视行业从业人士需要尽快把工具“为我所用”。

一位影视编剧提出了另一种想法，她认为，Sora这类AI视频模型大大降低了精美视频的制作门槛，以后编剧的奇思妙想将有更大的呈现空间，“技术不到位”、“经费不够”的掣肘都将减小很多。

比如，OpenAI的一则视频中，巨大的猛犸象缓缓走来，形象逼真，身后腾起了雪雾，远处被白雪覆盖的树林与山脉清晰可见。而众所周知，动画《冰川时代》的实际制作费用达到8000万美元之高，耗时4年之久。

“那些有才华但苦于缺少投资的导演们，可能会借力Sora创造出许多惊人的作品。”她补充说。

目前，Sora尚未对公众开放，OpenAI正在与一些视觉艺术家、设计师和电影制作人合作，以探索如何让Sora对创意专业人士提供有效帮助。

而双刃剑的另一面，是AI视频模型给现实世界带来的虚假信息威胁也将大大增加。

近期，AI合成的泰勒·斯威夫特不雅照曾引起过轩然大波，就连白宫方面也呼吁国会“应立刻采取行动”，而美国政坛和民众也对背后凸显的技术、法律漏洞感到担忧。

AI生成“恶性视频”对现实世界造成的困扰，将数倍于图片效果。为此，美国联邦贸易委员会将致力于利用工具来检测、阻止相关冒充欺诈行为。

为此，OpenAI表示，将在提供Sora之前采取几个重要的安全措施，与错误信息、仇恨内容和偏见等领域的专家进行合作，对模型进行对抗性测试；OpenAI也在构建工具来检测误导性内容，例如检测分类器，可以判断视频何时由Sora生成。

除了开发新技术为Sora保障安全性，现有的安全方法也适用于Sora模型，例如那些请求极端暴力、色情内容、仇恨图像、名人肖像或他人IP的提示将被模型拒绝，也开发了强大的图像分类器，用于查看生成的每个视频的帧数，以确保在向用户显示视频之前遵守OpenAI的使用政策。

但OpenAI也承认，无法预测人们使用Sora的所有有益方式，也无法预测人们滥用它的所有方式。

不过，目前Sora还有其局限性，比如可能难以准确模拟复杂场景的物理特性，并且可能无法理解因果关系的具体实例。例如，一个人咬一口饼干之后，饼干可能没有咬痕。该模型还可能混淆提示的空间细节，例如，左右混淆，人类在朝着跑步机的尾部跑步。也可能难以精确描述随时间推移发生的事件，例如，五只灰狼幼崽嬉戏的画面中，幼崽数量可能忽多忽少，有的幼崽会凭空出现或消失。

随着技术进步，或许未来，如何判定视频真假，也将成为一门学问。