• 杨立昆:以Sora、ChatGPT为代表的大模型产品注定失败
  • 发布于 2个月前
  • 143 热度
    0 评论
最近,OpenAI发布的视频生成模型Sora爆火,引发了科技界的广泛讨论。OpenAI的白皮书当中,将Sora定义为“世界模拟器”(world simulators),OpenAI称:“ Sora 是能够理解和模拟现实世界模型的基础,我们相信这种能力将成为实现 AGI 的重要里程碑。”

英伟达高级研究科学家 Jim Fan 更是直接断言,“Sora 是一个数据驱动的物理引擎,是一个可学习的模拟器,或世界模型”。

但是,著名人工智能科学家杨立昆(Yann LeCun)对这个说法显然不认同。也许你对杨立昆不熟悉,他是当代最杰出的计算机科学家之一、2018年图灵奖获得者、“卷积神经网络之父”(CNN),是AI领域的泰山北斗。

他也是“世界模型”概念的提出者,杨立昆认为Sora的视频模型与真正的世界模型所提倡的因果预测理念完全不同。杨立昆指出,以Sora代表的大模型技术不仅训练成本高昂,而且对于构建有效的世界模型几乎没有意义。大模型的技术路线不可能通往AGI(通用人工智能),以Sora、ChatGPT为代表的大模型产品注定失败。

一、什么是世界模型?
杨立昆对世界模型的定义,简单来说是一种能够理解并预测环境中发生的事件的模型。这种模型应该能够捕捉到事件之间的因果关系,从而对内容生成未来的状态进行预测。例如,一个有效的世界模型应该能够预测一个苹果从树上掉下来会落到地上,而不是飞向天空。这种预测能力是基于对物理定律和环境规则的理解。

在杨立昆看来,目前的大模型采用的是大数据、大算力、大参数的暴力“美学”,既浪费巨大的资源,也不可能实现真正的AGI,这条路线完全是错误的,它的技术架构存在无法突破的瓶颈,导致了幻觉问题始终无法彻底解决。

二、杨立昆的世界模型,表现如何?
杨立昆基于世界模型的理念,提出了“联合嵌入预测架构(JEPA)”,旨在通过将感知和预测结合起来,构建更有效的世界模型。基于这个理论,Meta发布了I-JEPA和V-JEPA,分别针对图像和视频内容的理解和预测。

这些模型在实际应用中的效果如何呢?确实在有限的场景下,能够更准确地预测事件的发展。但是也有一些业内评论指出,尽管I-JEPA和V-JEPA在某些场景下表现出色,但它们在处理复杂环境和未知情境时仍然存在局限性。也就是说,大部分情况下效果还不如Sora。

三、Sora注定失败?谁更有可能通往AGI
我就这个问题,跟几位国内大模型创业大佬进行了探讨。大家的一个共识认为,以OpenAI为代表的自监督语言模型,其实没有本质上的瓶颈,机器幻觉的问题也只是因为token space还不足够大,规模化就可以解决这个问题。可以说,它就是一个世界模型。杨立昆只是放大了当前这个模型的局限性。

从第一性原理的角度看,目前AI唯一可行的路线就是:next token prediction 、scaling law。这也就是以OpenAI为代表的大模型所采取的技术路线,接下来要解决的问题就是token足够完整、算力足够大。这就是为什么OpenAI CEO奥特曼要融资7万亿的原因,Sora以及ChatGPT-5的模型训练所耗费的巨大算力是非常惊人的。

四、大模型,已经深刻改变人类社会
《纽约时报》称ChatGPT为“人工智能的突破”,而《华尔街日报》则认为Sora开启了视频内容生成的新时代。这些评价反映了大模型在提高生产效率、促进创新和改变人类互动方式方面取得的巨大进步。

AI已经迎来了“克林格里奇困境”时刻。所谓的“克林格里奇困境”,是指:一项新技术刚发明出来,容易改变的时候,我们无法预见它对社会可能产生什么影响,也就不知道如何改变;等到不良后果出现时,技术已经成为社会的一部分,很难或无法改变了。

以汽车为例,在汽车发明之初,没有人能够预料到汽车会带来空气污染、资源耗竭、交通拥堵等问题。等到这些问题出现后,汽车早已成为社会结构的重要组成部分。现在再来着手解决汽车带来的问题,已经很难彻底解决了。

AI也是类似的,它可能加剧信息泛滥和虚假信息的传播,对社会造成负面影响,比如AI诈骗、肖像在影视作品中被滥用等等,但无论如何都不能阻挡历史的车轮滚滚向前。

五、结束语
比尔·盖茨说:“我们总是高估技术短期内的影响,而低估长期的影响。”尽管Sora在当前阶段存在局限性,但它代表了视频生成技术的重要一步。大模型也好,世界模型也罢,随着技术的不断进步,我们有理由期待出现更加强大和实用的AI技术,为人类社会带来更深远的变革。

用户评论