OpenAI用Sora打脸CVPR-duidaima 堆代码

OpenAI用Sora打脸CVPR

发布于 2个月前
 604 热度

 0 评论

相思剪作愁
0 粉丝 27 篇博客

这几天关于Sora的传闻很多。其中有这样一件事情，非常的有意思，我给大家八卦一下。
故事从下面这个小哥说起：

这个名字叫做William Peebles的人，是2023年5月才毕业的计算机PhD。他毕业于加州大学伯克利分校，研究方向是AI。这个小哥的LinkedIn上的介绍很简单：

没错，这几天火到出圈，火出天际的Sora，这位小哥就是领导者之一。毕竟Co-leading Sora这样的话，不是一般人可以随便写上去的。而这位小哥，2023年5月才PhD毕业。2024年2月，Sora已经火爆全网，彻底出圈了。这年纪，这成就，这火爆程度。我们是应该说OpenAI确实不拘一格使用人才呢，还是应该说这个小哥太牛逼了。

不过我相信，再牛逼，如果换个公司，比如微软什么的，这个小哥想一毕业就领导Sora这么牛逼的项目，简直无法想象。上面肯定有一堆堆的资深人士，绝对不可能给资源给显卡让这个小哥如此轻松的霍霍。那么问题来，为什么我标题上说OpenAI用Sora打脸CVPR呢？

这个故事要从一篇论文说起。论文标题是“Scalable Diffusion Models with Transformers”。这篇论文发表在ICCV 2023上。ICCV也是个不错的会议了，但是在计算机视觉领域和CVPR比起来，还是差距挺大的。

而根据网上传出来的消息，这篇论文首先投稿的是CVPR 2023，被评委们以创新性不足给拒绝了。之后论文才不得不转投了ICCV 2023。更重要的是，这篇被CVPR认为创新性不足的论文，正是今天名声大噪的Sora的底层技术。

当然，毫无疑问，Sora肯定做了各种各样的改进。但是其底层的技术基于Diffusion Transformer这个基本事实是无法改变的。小哥William Peebles肯定是Diffusion Transformer领域的大牛，毕竟这个领域就是他在做。他PhD期间一直都在做。

那么问题来了，被计算机视觉顶级会议CVPR认为缺乏创新性的技术，OpenAI却给小哥大量的资源，让其做出了text to video的Sora项目。到底是OpenAI的负责人们傻逼，还是CVPR的评委们是傻逼呢？

你要按照今天的逻辑去看，显然Sora名声大噪，而CVPR评委说的缺乏创新性貌似确实有点问题。可是事情不能这么看，我们现在是以上帝视角，去拿着已经出结果的未来检视当初。而CVPR的评委审查论文，以及OpenAI决定砸钱砸显卡做Sora这个项目的时候，这个技术的未来到底是怎么样，是未知的。

显然，OpenAI和CVPR的评委们，做了截然不同的预测。前者觉得值得砸钱，后者觉得没什么创新性。但是问题来了，学术圈的“创新性”，到底意义有多大？到底是学术圈自娱自乐的产物，还是真的有现实的意义。要这么去说的话，GPT 1和2的表现没有好于其他的模型，但是GPT的模型规模上来以后，显然就展现出了令人吃惊的成果。

而在GPT1和2都不怎么样的情况下，OpenAI依然坚持GPT的技术路线，这是为什么？我以前读过PhD，写过论文。后来也混industry。我发现的一个问题是，学术圈里面自娱自乐的东西很多，有些研究，到了工业级，就毫无意义了。反之亦然，工业界的人会看可行性看规模效应怎么样，在审稿论文的时候，和学术界的人之间也会吵翻天。

屁股决定脑袋，真的是永恒不变的真理。无论是数据库圈子，还是AI的圈子。当然，今天我们要问的不是屁股和脑袋的问题。而是客观上，到底谁更靠谱。是CVPR审稿的教授们？还是OpenAI的研究人员？

不管怎么样，现在看起来，OpenAI对技术路线的判断，确实在AI领域，当之无愧的王炸。CVPR被打脸，也是真的惨。

 用户评论

AI大模型
 103 成员 |  696 话题
+我要提问 +随便写写

可能感兴趣的话题

Anthropic重磅研究：只需250个文档，就能给任意大模型投毒

苹果推出SimpleFold通用预测模型，直接对标AlphaFold2

Coinbase强制员工用AI写代码，结果安全漏洞暴增1000%

Meta新成立的超级智能实验室扔出的一篇论文让大模型RAG推理速度狂飙30倍