• OpenAI用Sora打脸CVPR
  • 发布于 2个月前
  • 103 热度
    0 评论
这几天关于Sora的传闻很多。其中有这样一件事情,非常的有意思,我给大家八卦一下。
故事从下面这个小哥说起:

这个名字叫做William Peebles的人,是2023年5月才毕业的计算机PhD。他毕业于加州大学伯克利分校,研究方向是AI。这个小哥的LinkedIn上的介绍很简单:

没错,这几天火到出圈,火出天际的Sora,这位小哥就是领导者之一。毕竟Co-leading Sora这样的话,不是一般人可以随便写上去的。而这位小哥,2023年5月才PhD毕业。2024年2月,Sora已经火爆全网,彻底出圈了。这年纪,这成就,这火爆程度。我们是应该说OpenAI确实不拘一格使用人才呢,还是应该说这个小哥太牛逼了。

不过我相信,再牛逼,如果换个公司,比如微软什么的,这个小哥想一毕业就领导Sora这么牛逼的项目,简直无法想象。上面肯定有一堆堆的资深人士,绝对不可能给资源给显卡让这个小哥如此轻松的霍霍。那么问题来, 为什么我标题上说OpenAI用Sora打脸CVPR呢?

这个故事要从一篇论文说起。论文标题是“Scalable Diffusion Models with Transformers”。这篇论文发表在ICCV 2023上。ICCV也是个不错的会议了,但是在计算机视觉领域和CVPR比起来,还是差距挺大的。

而根据网上传出来的消息,这篇论文首先投稿的是CVPR 2023,被评委们以创新性不足给拒绝了。之后论文才不得不转投了ICCV 2023。更重要的是,这篇被CVPR认为创新性不足的论文,正是今天名声大噪的Sora的底层技术。

当然,毫无疑问,Sora肯定做了各种各样的改进。但是其底层的技术基于Diffusion Transformer这个基本事实是无法改变的。小哥William Peebles肯定是Diffusion Transformer领域的大牛,毕竟这个领域就是他在做。他PhD期间一直都在做。

那么问题来了,被计算机视觉顶级会议CVPR认为缺乏创新性的技术,OpenAI却给小哥大量的资源,让其做出了text to video的Sora项目。到底是OpenAI的负责人们傻逼,还是CVPR的评委们是傻逼呢?

你要按照今天的逻辑去看,显然Sora名声大噪,而CVPR评委说的缺乏创新性貌似确实有点问题。可是事情不能这么看,我们现在是以上帝视角,去拿着已经出结果的未来检视当初。而CVPR的评委审查论文,以及OpenAI决定砸钱砸显卡做Sora这个项目的时候,这个技术的未来到底是怎么样,是未知的。

显然,OpenAI和CVPR的评委们,做了截然不同的预测。前者觉得值得砸钱,后者觉得没什么创新性。但是问题来了,学术圈的“创新性”,到底意义有多大?到底是学术圈自娱自乐的产物,还是真的有现实的意义。要这么去说的话,GPT 1和2的表现没有好于其他的模型,但是GPT的模型规模上来以后,显然就展现出了令人吃惊的成果。

而在GPT1和2都不怎么样的情况下,OpenAI依然坚持GPT的技术路线,这是为什么?我以前读过PhD,写过论文。后来也混industry。我发现的一个问题是,学术圈里面自娱自乐的东西很多,有些研究,到了工业级,就毫无意义了。反之亦然,工业界的人会看可行性看规模效应怎么样,在审稿论文的时候,和学术界的人之间也会吵翻天。

屁股决定脑袋,真的是永恒不变的真理。无论是数据库圈子,还是AI的圈子。当然,今天我们要问的不是屁股和脑袋的问题。而是客观上,到底谁更靠谱。是CVPR审稿的教授们?还是OpenAI的研究人员?

不管怎么样,现在看起来,OpenAI对技术路线的判断,确实在AI领域,当之无愧的王炸。CVPR被打脸,也是真的惨。
用户评论