小天管理 发表于 2024年7月23日 发表于 2024年7月23日 在本地部署了 ollama 的 API 做生成任务,现在有 4 块 A800 的 GPU ,ollama 已经开启了并行任务。现在的问题是,模型速度提不上去,GPU 也没有跑满,占用在 80%左右,显存也只用了 1/2 。是其他什么硬件到了瓶颈吗?影响模型生成速度的内存带宽?如何能提升速度?
已推荐帖子