未登录用户
首 页
书 架
登录系统
注册账号
联系我们
duidaima.com
版权声明
闽ICP备2020021581号
闽公网安备 35020302035485号
搜索
我要提问
随便写写
我要写书
在本地部署大模型需要多少钱?
发布于 4天前
40 热度
14 评论
残雪冰心
0 粉丝 35 篇博客
关注
打赏
如题,
求低成本本地部署大模型的成熟解决方案!
用户评论
音信无凭
看你需要跑多大的,我现在用 8845hs+96G 内存,跑 qwen3-30B-a3b 8Q ,40960 上下文,平均 token 在 13/S. 实际占用内存 43G+.
供参考。
2025/5/30 8:16:00
[
0
]
[
0
]
回复
眠里微光
4090 部署个 7B 的玩玩可以
2025/5/30 8:15:00
[
0
]
[
0
]
回复
走过的路
如果你不打算或者也不会自己训练,确实不如花钱买,买显卡的钱,用到买 token 上,可能可以用几十年都用不完
2025/5/30 8:15:00
[
0
]
[
0
]
回复
遥歌
内存够大的话可以先试试 qwen3-30B-a3b ,cpu 都可以跑的比较快。
我目前是 x99 主板,插 ddr3 64g*4 ,显卡 3060+3060 ti ,显卡是我已经有的才这么用。平时跑 qwen3 32B 。自己配的话可以考虑 mi50 32g ,2080ti 22g ,tesla v100 ,40hx p106 多卡等等很多玩具。
核显方案有 amd 的 AI max 395 ,8845hs 等,还有苹果,够大但速度和价格一般,好处是体积小功耗低且全新。
2025/5/30 8:14:00
[
0
]
[
0
]
回复
叫我小透明
如果你不追求效果好的话:Google Edge Gallery ,免费,手机上装一个就好。
对效果有要求:老老实实调 API ,本地模型除了 ghs 以外没什么用。
2025/5/30 8:13:00
[
0
]
[
0
]
回复
心已凉
如果是本地一个人用买块差不多的显卡+ollama+open webui 随便玩玩够了。如果想模拟生产环境要考虑的事情就多了,比如负载均衡和并行处理,如果同时有多个用户发请求总不能排队等吧。前一阵读了一些相关资料,现在大模型的上下文窗口特别大,单独处理一个 task 浪费。所以有办法把上下文隔离开同时输入多个请求并行处理,而且同时处理的 task 不需要互相等待,一个 task 完了就在这个分隔区域再开始下一个 task ,还挺复杂的。
2025/5/30 8:11:00
[
0
]
[
0
]
回复
柠檬酸
AMD 的 AI max + 395 ,四通道 DDR5 8000MT ,大概 200G 带宽,32B 全量大概 10tokens/s ,MoE 只激活 3B 参数(显存容量还是 20 多 G )大概 30-50 tokens/s (取决于上下文长度),70B 也能跑,但是 5token 的速度没什么实用价值,等 70B 而且是 moe 的模型出来可能实用些。395 国补后通常不到两万,有 64G 内存的也有 128G 内存的。
2025/5/30 8:10:00
[
0
]
[
0
]
回复
那场梦
捡垃圾部署满血 deepseek 这种行为艺术前段时间比较流行,不过无论是模型本身的水准还是低配硬件带来的回复速度都远达不到可用标准,所以后来也没人提了。现在小显存(-16GB )有实用价值的模型除了画图的也就 whisper 音频转写和 sakura 日中翻译,其他都是玩具甚至炒概念的。
2025/5/30 8:07:00
[
0
]
[
0
]
回复
寒山远黛
我三月充了 10 块的 DeepSeek ,到现在还没用完呢。
2025/5/30 8:06:00
[
0
]
[
0
]
回复
只剩骄傲
很难低成本,比如跑全量的 qwen3 32b 都要 70g 显存,跑 qwq 量化后的都要 40g 显存,怎么算都不如直接用 API 性价比高。
2025/5/30 8:02:00
[
0
]
[
0
]
回复
肆战作王
不要求 tps 的话你把 swap 拉满就行了
2025/5/30 8:00:00
[
0
]
[
0
]
回复
轻雨伞下
别折腾了,老老实实花钱买 api ,量化模型,参数不够的,跟玩具没区别,你又做不到精调模型,为啥不用商业 API
2025/5/30 7:56:00
[
0
]
[
0
]
回复
旧梦扰人心
这个问题应该加两个前缀,部署 xxxB 的模型,每秒达到多少 token
2025/5/30 7:50:00
[
0
]
[
0
]
回复
凝晨
去买个 5060Ti ,16GB 版本的,也就三千多,装个 ollama ,够你跑个能用的大模型玩玩了
2025/5/30 7:43:00
[
0
]
[
0
]
回复
点击加载更多评论
AI大模型
96 成员 |
640 话题
+我要提问
+随便写写
可能感兴趣的话题
DeepSeek的最新模型R1-0528在最新AI排行榜上仅次于OpenAI
MindsDB:治理数据混乱的魔杖
jetbrain 系的 ide 有比较好的 ai 编程解决方案吗?
我发现所有的MCP-Server都好像不太好用,是我打开方式不对吗?
供参考。
我目前是 x99 主板,插 ddr3 64g*4 ,显卡 3060+3060 ti ,显卡是我已经有的才这么用。平时跑 qwen3 32B 。自己配的话可以考虑 mi50 32g ,2080ti 22g ,tesla v100 ,40hx p106 多卡等等很多玩具。
核显方案有 amd 的 AI max 395 ,8845hs 等,还有苹果,够大但速度和价格一般,好处是体积小功耗低且全新。
对效果有要求:老老实实调 API ,本地模型除了 ghs 以外没什么用。