• DeepSeek开源了新版V3大模型 新版本辅助编程能力突出
  • 发布于 1个月前
  • 81 热度
    1 评论
昨晚,国内著名大模型平台DeepSeek开源了V3模型的最新版本0324。不过DeepSeek相当低调,国内的公众号、国外的社交平台没有做任何宣传,就是“悄悄”地把模型上传到huggingface。根据国外网友测试显示,V3-0324最大亮点之一就是代码能力,只需要简单的文本提示就能快速开发各种网站、App,可以比肩目前全球最强的闭源代码模型Claude 3.7 Sonnet思维链版本。

但V3-0324是开源且免费的,推理效率更快。

开源地址:https://huggingface.co/deepseek-ai/DeepSeek-V3-0324/tree/main

有网友表示,新版V3 在不到 60 秒的时间内解开了一道密码谜题。Sonnet 3.7 花了大约 5 分钟却未能解开。

这就是为什么我不介意中国领先。他们有人力资源,这个巨人已经觉醒,我们将从中获得更好的科技成果。

有网友分析,认为这很可能是去年年底发布的 DeepSeek V3 的一次迭代更新,就像 OpenAI 一直在更新他们的模型一样,而没有真正增加模型的编号(我不知道我们已经见过多少个 gpt-4 的迭代版本)。

DeepSeek V3 实际上比 R1 更适合许多创意写作任务,因为它更快。速度很重要,因为你可以更快速地进行多次迭代。幻觉和准确性不足并不是大问题,因为人类应该编辑和批准文本。

DeepSeek的影响凸显了一个重要的技术转变。

还有人立刻对V3-0324进行了评测,一次性开发了一个网站写了800多行代码且没有出现任何错误。这是免费的、开源的、超级快的。很高兴看到这些开源模型如何给大公司施加压力,促使它们以更低的成本构建更好的模型。

新版V3 模型仅用一个提示就完成了这个登陆页面的编码。这个新的 DeepSeek-V3 模型在编程能力上已经达到了和 Claude 3.7 Sonnet 相同的水平,同时还是无限制且免费的。

V3简单介绍
V3是一个拥有 6710 亿参数的专家混合模型(Moe),其中370 亿参数处于激活状态。在传统的大模型中,通常会采用密集的神经网络结构,模型需要对每一个输入token都会被激活并参与计算,会耗费大量算力。此外,传统的混合专家模型中,不平衡的专家负载是一个很大难题。当负载不均衡时,会引发路由崩溃现象,这就好比交通拥堵时道路瘫痪一样,数据在模型中的传递受到阻碍,导致计算效率大幅下降。

为了解决这个问题,常规的做法是依赖辅助损失来平衡负载。然而,这种方法存在一个弊端,那就是辅助损失一旦设置过大,就会对模型性能产生负面影响,就像为了疏通交通而设置过多限制,却影响了整体的通行效率。DeepSeek对V3进行了大胆创新,提出了辅助损失免费的负载均衡策略,引入“偏差项”。在模型训练过程中,每个专家都被赋予了一个偏差项,它会被添加到相应的亲和力分数上,以此来决定top-K路由。

模型会持续监测每一批训练数据中专家的负载情况。如果某个专家负载过重,就像一座桥梁承受了过多的车辆,此时就减小其偏差项;反之,如果负载过轻,就增加偏差项。通过这种动态调整, V3能够在训练过程中有效平衡专家负载,而且相比那些仅依靠纯辅助损失来平衡负载的模型,它的性能得到了显著提升。

此外,V3还采用了节点受限的路由机制,以限制通信成本。在大规模分布式训练中,跨节点的通信开销是一个重要的性能瓶颈。通过确保每个输入最多只能被发送到预设数量的节点上,V3 能够显著减少跨节点通信的流量,从而提高训练效率。这种路由机制不仅减少了通信开销,还使得模型能够在保持高效的计算-通信重叠的同时,扩展到更多的节点和专家。

根据国外开源评测平台kcores-llm-arena对V3-0324最新测试数据显示,其代码能力达到了328.3分,超过了普通版的Claude 3.7 Sonnet(322.3),可以比肩334.8分的思维链版本。
用户评论
  • 与何人说
  • DeepSeek V3往前迈出重要一步,Vibe Coding的时代终将来临。
    1、DeepSeek 在 Hugging Face 上发布了升级版的 DeepSeek-V3模型,新版模型命名为 DeepSeek-V3- 0324 ,参数量从之前的 6710 亿提升至 6850 亿。这次更新,它最突出的区别是前端和 UI 相关的编码任务要好得多。
    2、在 DeepSeek Chat 中,关掉深度思考和联网搜索,即可立即体验 V3的最新版本。它能轻松生成精美的 HTML5、CSS 和前端代码,而且完全免费,经过测试,能力超过 R1,可以直接媲美业内的扛把子 Claude 3.7 。
    3、国内过去没有在编程方面能打的模型,导致国内字节跳动发布的 Trae 能力大不如海外的 Cursor。现在 V3 能够实现更强的编程能力,那接下来国内也会迅速出现一批 AI IDE。AI 果然最先会冲击到编程领域。
    4、最近,国外的 Vibe Coding 特别火,国内类似的产品较少。此刻伴随着 V3新能力的发布,估计也会有一批 Vibe Coding 的产品诞生。
    5、这次的 V3是一次非常大的改进,但 DeepSeek 团队居然没有把它称之为 V4。有传言说 R2将于 4 月发布,现在我有点期待是不是 4 月会先发布 V4。DeepSeek 团队给人太多的惊喜。X 上的诸多国外用户同样期待,因为 Claude 的模型实在太贵。
    6、DeepSeek 团队除了公布模型的权重外,再没有发布其他信息。但有用户抢先进行了基准测试,他们说 DeepSeek 的新 V3 在 aider 的多语言基准测试中得分为 55% ,比之前的版本有了显著提高。这是目前全世界排名第二的非思考/推理模型,仅次于 Sonnet 3.7 。
    7、V3 基于 MIT 开源。上下文同样是 128 K。

  • 2025/3/25 9:21:00 [ 0 ] [ 0 ] 回复