原标题:Sora成不了王炸吗 Meta人工智能负责人锐评:搞搞视频就得了
OpenAI日前推出的视频生成模型Sora持续引爆相关概念,被视为视频生成服务的重大突破。然而,来自竞争对手的科学家却泼了一盆冷水。
Sora因其视频稳定性和清晰度而受到市场青睐,但还有一些人对其给予更高厚望,认为其或许有机会冲击人工智能的高峰——世界模拟器,这也是OpenAI喊出的口号。
OpenAI也在其官网文章中寄望,Sora绝不仅仅是个视频生成器,而是一个现实世界的模拟器。通过学习和模拟数据分布,生成与真实世界相似的虚拟样本,从而给现实世界提供预知信息。
但这一前景被Meta的首席AI科学家Yann LeCun公开反驳,这位以直言不讳闻名的AI大佬直言:搞搞视频就好,别吹有的没的。
注定失败的模拟器
LeCun在X上公开发文称,通过生成像素来对世界进行模拟是一种资源浪费,且注定会失败。而该贴也引发了极大关注,一众网友在评论区华山论剑。
简单来说,LeCun认为Sora模型试图推断太多不相关的细节,就像是通过试图分析足球的材料来判断足球的运行轨迹。
他指出,生成式模型适用于文本内容,因为文本是离散的,且是由数量有限的符号组成的数据,在这种情况下,处理预测中的不确定性变得十分容易。但如果换到以像素为单位的预测领域,不确定性就会变得非常棘手,且不可能成功。
底下的网友也纷纷发言,有人称Sora虽然令人印象深刻,但几乎每个场景都可能出现逻辑问题,比如艺术家测试视频中三头小狼莫名其妙分裂成五头小狼。这让模拟现实变得多少不太靠谱。
也有人说,Sora是应梦想而生,人可以做清醒的梦,或者做不太清醒的梦。这种看起来不太清醒的发言则是赌Sora有那么一些可能实现OpenAI“世界模拟器”的壮言。
与此同时,LeCun所在的Meta上周发布了一个视频联合嵌入预测架构V-JEPA,据称其通过观看视频来教导大模型理解和对物理世界建模,算是Sora之外,对世界模拟器的另一种尝试。
此外,V-JEPA还可以灵活丢弃不可预测的信息,而将训练和样本运行效率提升1.5-6倍。不过,V-JEPA显然显然没在市场引发多大动静,相比Sora要低调很多。