Meta 发布了 V-JEPA 2 模型，杨立昆终于打了个翻身仗？-duidaima 堆代码

Meta 发布了 V-JEPA 2 模型，杨立昆终于打了个翻身仗？

发布于 2个月前
 237 热度

 4 评论

Spring
0 粉丝 58 篇博客

杨立昆（ Yann LeCun ）言必称 V-JEPA 2 世界模型，断言 LLM 必将失败。他给的理由，最关键的一个，是 LLM 只是在大量文字上，做表面意义上的统计工作，也就是它无法理解内层的含义。更进一步，他说出 LLM 这种预测下一个 token 的方式，比如无法从「文字」推广到「图片」和「视频」上，因为前者（文字）是有限，是离散的，而后者（颜色）是无限的，是连续的。

好吧，现在他们终于发布了 V-JEPA 2 ，说它才是会取代 LLM ，并登顶 AGI 宝座的王者。确实 V-JEPA 2 的效果不错。不过，它真的跟 LLM 有什么区别吗？杨立昆说他非常早以前，就在尝试通过预测下一帧或者缺失的帧(块)，这种无监督的方式，来训练，希望获得能对底层物理原理有所领悟的「世界模型」。但都失败了。按照他的说法，预测像素是徒劳的，因为太底层了，太多的像素细节对于模型获取物理直觉并没有意义。

然后当 LLM 出现后，他开始不遗余力批评它，说它是统计学，说它学不到内在规律，说它缺乏底层物理基础的支撑。可是，现在的 V-JEPA 2 ，我看了一下它的原理，它确实不再从像素去预测了，而是从将像素抽象之后得到的“潜空间”或者说“特征空间”去做预测。然后杨立昆说，V-JEPA 2 得到了关于底层物理的直觉。可是，这跟他自己所说的多么矛盾啊。

他说从像素上预测，很难成功，现在他说 V-JEPA 2 从更抽象的空间中去预测，就得到了底层物理的直觉。可他批评 LLM 时，却说 LLM 只是在做一些文字的统计，学不到底层的关联。这就奇怪了，难道语言、文字不正是对现实世界的抽象吗？哦，在他的抽象空间做预测就是在获取「世界模型」，在文字这个抽象空间做预测，就是在做「统计」。多么双标啊。

之前 Ilya 就说杨立昆说的世界模型跟 LLM 没有什么不同，现在也有人评价说 V-JEPA 2 没有任何新的东西。我觉得确实是，在潜空间中做预测，OpenAI 的 Sora 早就已经在做了。即使是 LLM ，它也是将文字转到嵌入向量，在那个空间做的预测。我看不出 V-JEPA 2 有任何不同的地方，让杨立昆的双标能够成立。

 用户评论

乌龙山
向量空间也是空间，确实没什么本质上的不同，但方向毕竟是不同的，像素比文字的内容更丰富，细节更饱满，这一点毋庸置疑的；实际上应该保守看好 V-JEPA 2 ，也许现行版本优势不大，但潜力无穷。因为文字的高度凝练性，导致概率空间比像素小得多，可能性也就小很多，上限必然比像素要小。

虽然概念炒作的概率比较大，可能只是在给资本叙事，但就像 CloseAI 当年给微软谈的一样，没有算力怎么能造出 ChatGPT 来呢？像素推演比文字推演需要的算力多太多了，让他搞吧！
AI 需要百花齐放，这是好事，LeCun 还是牛的，希望他能成
2025/6/15 8:54:00   [ 0 ]  [ 0 ] 回复

Vinda
你引用的这些他的言论，对着呢啊，很难去反对啊。Latent space 就是比文本空间什么像素空间靠谱啊，Latent space 是学习出来的，文本空间像素空间却是人类定义的，文本空间能表示的事物好比整数，latent space 能表示的事物好比实数，一个值用整数表示和用实数表示，精度上是不是差了十万八千里呢。
2025/6/15 8:52:00   [ 0 ]  [ 0 ] 回复

耀国
春风不醉 2025-06-15 08:40
这个问题，必须通过数学去证明，而不是通过一些文字或对话去判断
用什么数学证明，我还从来没听过数学可以证明像深度学习这样的东西。上面的对比还不够明显吗？杨立昆就是一个笑话。倒不是说他不懂，而是他对 LLM 装傻充愣的样子。
2025/6/15 8:41:00   [ 0 ]  [ 0 ] 回复

春风不醉
这个问题，必须通过数学去证明，而不是通过一些文字或对话去判断
2025/6/15 8:40:00   [ 0 ]  [ 0 ] 回复

吐槽.灌水
 446 成员 |  1783 话题
+我要提问 +随便写写

可能感兴趣的话题

OpenAI将重新聚焦改进ChatGPT 广告业务被搁置

从《天道》的一个小细节看程序员

2025 年了，真的有人在用电脑购物吗？怎么优化网页?

一个程序员的迷惑：是从数据结构和算法入手，还是从架构出发？