• 个人电脑适合跑哪个本地大模型?
  • 发布于 1天前
  • 15 热度
    8 评论
自己电脑配置:mac mini m2 16g
通过 ollama ,安装了
qwen3:8b
qwen3:4b
gemma3:4b
mistral:7b
目的是为了优化公众号文章标题:
import re
from langchain_ollama import ChatOllama
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser
# 初始化 Ollama 模型
llm = ChatOllama(
    model="gemma3:4b",
)
# 定义提示模板
prompt_template = ChatPromptTemplate.from_template(
    """
    假设你是个具有丰富的爆文经验的微信公众号作者,现提供的"{question}"文章标题,优化标题,只输出最优的那个,结果不需要解释。
    """
)
# 创建处理链
chain = prompt_template | llm | StrOutputParser()
# 示例问题
question = "女人离我远点"
# 调用链并获取纯答案
answer = chain.invoke({"question": question})
clean_text = re.sub(r"<think>.*?</think>", "", answer, flags=re.DOTALL).strip()
# 输出结果
print(clean_text)
分别用了上面的几个模型,跑下来,都比较慢,有没有其他性价比比较高的?
用户评论
  • 人生如流水
  • 你用 M2 肯定慢啊,带宽才 100G ,跑 Q4 量化模型 7B 的也就 20 多 t/s ,速度勉强能接受,能力一塌糊涂。你想快,要么就换带宽更高的,比如 M1 ultra ,800G 带宽。或者换 N 卡平台,比如 5070ti ,差不多 900G 带宽。要么就得用更小的模型,比如 1.5B 的,快是快了,但能干的活儿不多,只能处理非常非常简单的任务,你这种优化标题的任务就别想了。再说了,你真要用这种 7B 以下的模型,有些官方的 API 都是免费的,你折腾这个干嘛。
  • 2025/6/18 12:22:00 [ 0 ] [ 0 ] 回复
  • 夜有星光
  • 1. mlx 格式的快一些
    2. 你用的 ollama 是不是只会使用 cpu ?看一下 metal llama.cpp 这个项目,或者直接用 lmstudio 起服务试一下。
  • 2025/6/18 9:16:00 [ 0 ] [ 0 ] 回复
  • 路生云烟
  • 不败的意志  2025-06-18 09:09
    你没有显卡肯定慢啊……,而且我觉得感觉你这个是任务的质量大于速度的,从结果讲推荐新版的 r1 蒸馏的 qwen3-8b ,同级别的模型输出的 token 越多,质量越好,一般来讲。

    据说苹果线上就有服务是跑在 mac mini 上

  • 2025/6/18 9:12:00 [ 0 ] [ 0 ] 回复
  • 不败的意志
  • 你没有显卡肯定慢啊……,而且我觉得感觉你这个是任务的质量大于速度的,从结果讲推荐新版的 r1 蒸馏的 qwen3-8b ,同级别的模型输出的 token 越多,质量越好,一般来讲。
  • 2025/6/18 9:09:00 [ 0 ] [ 0 ] 回复