• 在本地部署大模型需要多少钱?
  • 发布于 4天前
  • 40 热度
    14 评论
如题,求低成本本地部署大模型的成熟解决方案!
用户评论
  • 音信无凭
  • 看你需要跑多大的,我现在用 8845hs+96G 内存,跑 qwen3-30B-a3b 8Q ,40960 上下文,平均 token 在 13/S. 实际占用内存 43G+.
    供参考。
  • 2025/5/30 8:16:00 [ 0 ] [ 0 ] 回复
  • 遥歌
  • 内存够大的话可以先试试 qwen3-30B-a3b ,cpu 都可以跑的比较快。
    我目前是 x99 主板,插 ddr3 64g*4 ,显卡 3060+3060 ti ,显卡是我已经有的才这么用。平时跑 qwen3 32B 。自己配的话可以考虑 mi50 32g ,2080ti 22g ,tesla v100 ,40hx p106 多卡等等很多玩具。
    核显方案有 amd 的 AI max 395 ,8845hs 等,还有苹果,够大但速度和价格一般,好处是体积小功耗低且全新。
  • 2025/5/30 8:14:00 [ 0 ] [ 0 ] 回复
  • 叫我小透明
  • 如果你不追求效果好的话:Google Edge Gallery ,免费,手机上装一个就好。
    对效果有要求:老老实实调 API ,本地模型除了 ghs 以外没什么用。
  • 2025/5/30 8:13:00 [ 0 ] [ 0 ] 回复
  • 心已凉
  • 如果是本地一个人用买块差不多的显卡+ollama+open webui 随便玩玩够了。如果想模拟生产环境要考虑的事情就多了,比如负载均衡和并行处理,如果同时有多个用户发请求总不能排队等吧。前一阵读了一些相关资料,现在大模型的上下文窗口特别大,单独处理一个 task 浪费。所以有办法把上下文隔离开同时输入多个请求并行处理,而且同时处理的 task 不需要互相等待,一个 task 完了就在这个分隔区域再开始下一个 task ,还挺复杂的。
  • 2025/5/30 8:11:00 [ 0 ] [ 0 ] 回复
  • 柠檬酸
  • AMD 的 AI max + 395 ,四通道 DDR5 8000MT ,大概 200G 带宽,32B 全量大概 10tokens/s ,MoE 只激活 3B 参数(显存容量还是 20 多 G )大概 30-50 tokens/s (取决于上下文长度),70B 也能跑,但是 5token 的速度没什么实用价值,等 70B 而且是 moe 的模型出来可能实用些。395 国补后通常不到两万,有 64G 内存的也有 128G 内存的。
  • 2025/5/30 8:10:00 [ 0 ] [ 0 ] 回复
  • 那场梦
  • 捡垃圾部署满血 deepseek 这种行为艺术前段时间比较流行,不过无论是模型本身的水准还是低配硬件带来的回复速度都远达不到可用标准,所以后来也没人提了。现在小显存(-16GB )有实用价值的模型除了画图的也就 whisper 音频转写和 sakura 日中翻译,其他都是玩具甚至炒概念的。
  • 2025/5/30 8:07:00 [ 0 ] [ 0 ] 回复
  • 只剩骄傲
  • 很难低成本,比如跑全量的 qwen3 32b 都要 70g 显存,跑 qwq 量化后的都要 40g 显存,怎么算都不如直接用 API 性价比高。
  • 2025/5/30 8:02:00 [ 0 ] [ 0 ] 回复