Ollama 的本地部署性能

Ollama

https://ollama.com/ 可以使用 PC 的 CPU 或 GPU 运行开源 LLM,有 Windows/Mac/Linux 版本,各家 LLM 也有针对 PC 的裁剪(量化)版本。3B 参数只需要 2GB 内存或显存。

性能表(单位 token/s)

yi1.5-6b-Q4

llama3.2-3b-Q4

qwen2.5coder-14b-Q4

qwe......

'