• Meta 发布了 V-JEPA 2 模型,杨立昆终于打了个翻身仗?
  • 发布于 15小时前
  • 14 热度
    4 评论
  • Spring
  • 0 粉丝 54 篇博客
  •   
杨立昆( Yann LeCun )言必称 V-JEPA 2 世界模型,断言 LLM 必将失败。他给的理由,最关键的一个,是 LLM 只是在大量文字上,做表面意义上的统计工作,也就是它无法理解内层的含义。更进一步,他说出 LLM 这种预测下一个 token 的方式,比如无法从「文字」推广到「图片」和「视频」上,因为前者(文字)是有限,是离散的,而后者(颜色)是无限的,是连续的。

好吧,现在他们终于发布了 V-JEPA 2 ,说它才是会取代 LLM ,并登顶 AGI 宝座的王者。确实 V-JEPA 2 的效果不错。不过,它真的跟 LLM 有什么区别吗?杨立昆说他非常早以前,就在尝试通过预测下一帧或者缺失的帧(块),这种无监督的方式,来训练,希望获得能对底层物理原理有所领悟的「世界模型」。但都失败了。按照他的说法,预测像素是徒劳的,因为太底层了,太多的像素细节对于模型获取物理直觉并没有意义。

然后当 LLM 出现后,他开始不遗余力批评它,说它是统计学,说它学不到内在规律,说它缺乏底层物理基础的支撑。可是,现在的 V-JEPA 2 ,我看了一下它的原理,它确实不再从像素去预测了,而是从将像素抽象之后得到的“潜空间”或者说“特征空间”去做预测。然后杨立昆说,V-JEPA 2 得到了关于底层物理的直觉。可是,这跟他自己所说的多么矛盾啊。

他说从像素上预测,很难成功,现在他说 V-JEPA 2 从更抽象的空间中去预测,就得到了底层物理的直觉。可他批评 LLM 时,却说 LLM 只是在做一些文字的统计,学不到底层的关联。这就奇怪了,难道语言、文字不正是对现实世界的抽象吗?哦,在他的抽象空间做预测就是在获取「世界模型」,在文字这个抽象空间做预测,就是在做「统计」。多么双标啊。

之前 Ilya 就说杨立昆说的世界模型跟 LLM 没有什么不同,现在也有人评价说 V-JEPA 2 没有任何新的东西。我觉得确实是,在潜空间中做预测,OpenAI 的 Sora 早就已经在做了。即使是 LLM ,它也是将文字转到嵌入向量,在那个空间做的预测。我看不出 V-JEPA 2 有任何不同的地方,让杨立昆的双标能够成立。
用户评论
  • 乌龙山
  • 向量空间也是空间,确实没什么本质上的不同,但方向毕竟是不同的,像素比文字的内容更丰富,细节更饱满,这一点毋庸置疑的;实际上应该保守看好 V-JEPA 2 ,也许现行版本优势不大,但潜力无穷。因为文字的高度凝练性,导致概率空间比像素小得多,可能性也就小很多,上限必然比像素要小。

    虽然概念炒作的概率比较大,可能只是在给资本叙事,但就像 CloseAI 当年给微软谈的一样,没有算力怎么能造出 ChatGPT 来呢?像素推演比文字推演需要的算力多太多了,让他搞吧!
    AI 需要百花齐放,这是好事,LeCun 还是牛的,希望他能成
  • 2025/6/15 8:54:00 [ 0 ] [ 0 ] 回复
  • Vinda
  • 你引用的这些他的言论,对着呢啊,很难去反对啊。Latent space 就是比文本空间什么像素空间靠谱啊,Latent space 是学习出来的,文本空间像素空间却是人类定义的, 文本空间能表示的事物好比整数,latent space 能表示的事物好比实数,一个值用整数表示和用实数表示,精度上是不是差了十万八千里呢。
  • 2025/6/15 8:52:00 [ 0 ] [ 0 ] 回复
  • 耀国
  • 春风不醉  2025-06-15 08:40
    这个问题,必须通过数学去证明,而不是通过一些文字或对话去判断

    用什么数学证明,我还从来没听过数学可以证明像深度学习这样的东西。上面的对比还不够明显吗?杨立昆就是一个笑话。倒不是说他不懂,而是他对 LLM 装傻充愣的样子。

  • 2025/6/15 8:41:00 [ 0 ] [ 0 ] 回复